Медіана абсолютних відхилень
Медіана абсолютних відхилень (англ. median absolute deviation ()) – робастна міра мінливості для однофакторної вибірки кількісних даних, що є медіаною абсолютних відхилень від медіани[1]. Медіана абсолютних відхилень може розраховуватися і для генеральної сукупності.
Визначення[ред. | ред. код]
В загальному випадку медіана абсолютних відхилень:
,
де - оператор медіани,
- медіана випадкової величини .
Медіана абсолютних відхилень є мірою розсіяння значень випадкової величини. В порівнянні з іншими мірами розсіяння, такими як дисперсія чи стандартне відхилення, є стійкою оцінкою до викидів, що виниклі в наборі даних. У стандартному відхиленні чи дисперсії відхилення від середнього беруться у квадраті, тому більші відхилення мають більшу вагу і, таким чином, викиди сильніше впливають на них. У невелика, як правило, кількість викидів не має ніякого значення. Медіана абсолютних відхилень широко використовується як альтернатива стандартному відхиленню для пошуку викидів в одномірних даних[2].
Крім того, що MAD - надійніша оцінка розсіяння, ніж дисперсія вибірки або стандартне відхилення, вона краще працює з розподілами без середнього або дисперсії типу, наприклад, розподілу Коші.
Приклад[ред. | ред. код]
Нехай є набір значень 1, 1, 2, 2, 4, 6, 9. Медіана цього набору рівна 2. Абсолютні відхилення від медіани дорівнюють 1, 1, 0, 0, 2, 4, 7, медіана яких, у свою чергу, має значення 1 (оскільки впорядковані у неспадний ряд абсолютні відхилення становлять 0, 0, 1, 1 , 2, 4, 7). Отже, медіана абсолютних відхилень для цих даних дорівнює 1.
Генеральна сукупність[ред. | ред. код]
генеральної сукупності визначається аналогічно до вибірки, але на основі повного розподілу. Для симетричного розподілу з середнім значенням рівним нулю медіана абсолютних відхилень рівна 75-ти відсотковому квантилю розподілу.
На відміну від дисперсії, яка може й не існувати, для генеральної сукупності існує завжди. Наприклад, для стандартного розподілу Коші, дисперсія якого не визначена, медіана абсолютних відхилень рівна 1.
Зв'язок зі стандартним відхиленням[ред. | ред. код]
Між медіаною абсолютних відхилень та стандартним відхиленням для симетричних розподілів існує простий зв'язок (якщо стандартне відхилення для відповідного закону розподілу існує):
- де - множник, значення якого залежить від закону розподілу, наприклад, для нормального розподілу =1,4826[3].
- Для несиметричних розподілів залежність складніша.
Історія[ред. | ред. код]
Перша відома згадка про датується 1816 роком в науковій статті Карла Фрідріха Гаусса про визначення точності числових спостережень[4]
Див. також[ред. | ред. код]
Примітки[ред. | ред. код]
- ↑ Брюс П., Брюс Э. Практическая статистика для специалистов Data Science/Пер. с англ. - СПб: БХВ-Петербург, 2018. - 304 с: ил. ISBN 978-5-9775-3974-6.
- ↑ Чио К., Фримэн Д. Машинное обучение и безопасность/Пер. с англ. А. В. Снастина. - М.: ДМС Пресс, 2020. - 388 с.: ил. ISBN 978-5-97060-713-8.
- ↑ Rousseeuw, P. J.; Croux, C. (1993). Alternatives to the median absolute deviation. Journal of the American Statistical Association. 88 (424): 1273—1283. doi:10.1080/01621459.1993.10476408.
- ↑ Gauss, Carl Friedrich (1816). Bestimmung der Genauigkeit der Beobachtungen. Zeitschrift für Astronomie und Verwandte Wissenschaften. 1: 187—197.
|