Робастність у статистиці

Вступ[ред. | ред. код]

Якщо в параметричних постановках на дані накладаються занадто жорсткі вимоги — їх функції розподілу повинні належати визначеному параметричному сімейству, то в непараметричних, навпаки, зайво слабкі — потрібно лише, щоб функції розподілу були неперервними. При цьому ігнорується апріорна інформація про те, який є «приблизний вигляд» розподілу. Апріорі можна чекати, що обчислення цього «приблизного вигляду» поліпшить показники якості статистичних процедур. Розвитком цієї ідеї є теорія стійкості (робастності) статистичних процедур, у якій передбачається, що розподіл вихідних даних мало відрізняється від деякого параметричного сімейства. З 1960-х років цю теорію розробляли П.Хубер, Ф.Хампель та інші. З монографій російською мовою, що трактують про робастності і стійкість статистичних процедур, найранішою і найзагальнішою була книга, що випливає — монографія. Окремими випадками реалізації ідеї робастності (стійкості) статистичних процедур є розглянуті нижче статистика об'єктів нечислової природи та інтервальна статистика.

Існує велика розмаїтість моделей робастності залежно від того, які саме відхилення від заданого параметричного сімейства допускаються. Найпопулярнішою виявилася модель викидів, у якій вихідна вибірка «засмічується» малим числом «викидів», що мають принципово інший розподіл. Однак ця модель представляється «тупиковою», оскільки в більшості випадків великі викиди або неможливі через обмеженість шкали приладу, або від них можна позбутися, застосовуючи лише статистики, побудовані по центральній частині варіаційного ряду. Крім того, у подібних моделях звичайно вважається відомою частота засмічення, що разом зі сказаним вище робить їх малопридатними для практичного використання. Перспективнішою представляється модель Ю. Н. Благовіщенського, у якій відстань між розподілом кожного елемента вибірки і базовим розподілом не перевершує заданої малої величини.

Робастність у статистиці надає підходи, спрямовані на зниження впливу викидів і інших відхилень у досліджуваній величині щодо моделей класичних методів статистики. На практиці наявність у вибірках навіть невеликого числа різких викидів може призвести до того, що результати можуть перестати нести в собі який-небудь зміст. Для уникннення цього необхідно якимось чином знизити вплив «поганих» спостережень, або зовсім вилучити їх. Однак виникає питання: «Як відрізнити „погане“ спостереження від „доброго“?». Навіть найпростіший з підходів — суб'єктивний (заснований на внутрішніх відчуттях статистика) — може принести значну користь, однак для відбраковування все-таки краще застосовувати методи, що мають строге математичне обґрунтування, а не тільки інтуїтивні припущення дослідника. Цей процес являє собою дуже нетривіальну задачу для статистика і визначає собою один з напрямків статистичної науки.

Поняття робастності[ред. | ред. код]

Під робастністю в статистиці розуміють нечутливість до різних відхилень і неоднорідностям у вибірці, зв'язаним з тими чи тими, у загальному випадку невідомими, причинами. Це можуть бути помилки детектора, що реєструє спостереження, чиїсь сумлінні чи не дуже спроби «підігнати» вибірку до того, як вона потрапить до статистики, помилки оформлення, неочікувані помилки та багато чого іншого. Наприклад, найбільш робастною оцінкою параметра зрушення закону розподілу є медіана, що на інтуїтивному рівні цілком очевидно (для строгого доказу варто скористатися тим, що медіана є усіченою М-оцінкою). Крім безпосередньо «бракованих» спостережень також може бути певна кількість спостережень, що мають інший розподіл. Через умовність законів розподілів, а це не більш, ніж моделі опису, сама по собі вибірка може містити деякі розбіжності з ідеалом.

Проте, параметричний підхід настільки вжився, довівши свою простоту і доцільність, що безглуздо від нього відмовлятися. Тому і виникла необхідність пристосувати старі моделі до нових завдань.

Варто окремо підкреслити і не забувати, що відбраковані спостереження потребують окремої, більш пильної, уваги. Спостереження, що здаються «поганими» для однієї гіпотези, можуть цілком відповідати інший. Нарешті, аж ніяк не завжди спостереження, що різко виділяються, є «браком». Одне таке спостереження для генної інженерії, приміром, варте мільйонів інших, подібних один до одного.

Основні підходи[ред. | ред. код]

Для того, щоб обмежити вплив неоднорідностей, або ж зовсім його вилучити, є безліч різних підходів. Серед них виділяються два основних напрями:

Згрупувати дані, не відбраковуючи окремі спостереження, у такий спосіб значно знизивши можливість псування вибірки окремими випадами. Після чого з достатнім ступенем упевненості користатися класичними методами статистики.

Відслідковувати викиди безпосередньо в процесі аналізу. Наприклад, для визначення параметрів закону розподілу використовувати ітераційну процедуру з усіченими чи th- зниженими M-оцінками.

Групування даних як метод робастної статистики[ред. | ред. код]

За допомогою групування вибірки можна різко знизити вплив окремих спостережень, не відкидаючи їх. Розбивка на інтервали не представляє особливих труднощів і дає дуже відчутний результат. Є три найпоширеніших способи розбивки:

Розбивка на інтервали рівної довжини. Найбільш простий і тому розповсюджений спосіб.

Розбивка на інтервали рівної імовірності, також називане рівночастотним групуванням, що відбиває практичну реалізацію цього методу. У результаті такого групування вибірки здійснюється максимізація величини інформаційної ентропії $\sum {-P_{i}}\ln {P_{i}}$ , де $P_{i}=\int \limits _{x_{i-1}}^{x_{i}}f(x)\,\mathrm {d} x\!$ і досягається найбільша асимптотична потужність критерію згоди $\chi ^{2}$ , або критерію відношення правдоподібності.

Розбивка на асимптотично оптимальні інтервали. При такій розбивці мінімізуються втрати інформації внаслідок групування, тобто максимізується фішеровська інформація $\sum \left({\frac {\partial \ln P_{i}}{\partial \theta }}\right)^{2}P_{i}\!$ , де $\theta \!$ — оцінюваний параметр закону. Для багатьох законів розподілу вдалося одержати інваріантні щодо параметрів межі інтервалів, і були складені відповідні таблиці. Така розбивка дає змогу максимізувати потужність критерію.

Підхід, заснований на функції впливу[ред. | ред. код]

Уведення[ред. | ред. код]

У даному розділі розглядаються аспекти, що стосуються оцінювання параметрів закону розподілу по «засміченій» вибірці з використанням підходу, запропонованого Хампелем. Для того, щоб вивчити вплив окремо узятого спостереження на оцінку (розглянуту статистику) того чи іншого параметра закону розподілу Хампелем уводиться так називана функція впливу (influence function), що являє собою ні що інше, як похідну цієї статистики.

Основні поняття[ред. | ред. код]

Уведемо функціонал $T\!$ , як функцію від деякої вибірки $X=(X_{1}\ldots X_{n})\in \mathbb {X} \!$ з розподілу $F\!$ c параметром $\theta \in \Theta \!$ (воно ж $F_{\theta }\!$ ). $T\!$ залежить від $X:F_{\theta }\!$ . Значить $T\!$ є функцією від закону $F\!$ і від параметра $\theta \!$ . Нехай $T\!$ також задовольняє деяким умовам заможності і регулярності:

T(F)=\theta ,\quad \int T\,\mathrm {d} F=0.\!

Визначимо похідну цього функціонала $T\!$ у точці з розподілом $F\!$ у такий спосіб:

$\exists \,a:\quad \lim _{t\to 0}{\frac {T((1-t)F+tG)-T(F)}{t}}:=\int a\,\mathrm {d} G,\!$

де $a\!$ — деяка функція, зміст якої проясниться на наступному кроці, а $G\!$ — деякий закон розподілу, відмінний від $F\!$ .

Підставимо $\Delta _{x}\!$ , що приписує одиничну масу події $X=x\!$ , замість $G\!$ , у результаті чого від інтеграла в правій частині виразу залишиться тільки $a(x)\!$ , і перепишемо результат, що вийшов, у наступному вигляді:

$IF=\lim _{t\to 0}{\frac {T((1-t)F+t\Delta _{x})-T(F)}{t}}\!$

Цю функцію і називають функцією впливу.

Щоб пояснити зміст уведеного поняття підставимо ${\frac {1}{n}}\!$ замість $t\!$ , замінивши межу. У результаті вираження $F_{t,x}=(1-t)F+t\Delta _{x}\!$ перетвориться в $F_{{\frac {1}{n}},x}={\frac {(n-1)F+\Delta _{x}}{n}}\!$ , що відповідає ситуації, коли у вибірку, що складається з $(n-1)\!$ спостереження, що підкоряються розподілу $F\!$ , додають ще одне нове. У такий спосіб $IF\!$ відслідковує реакцію використовуваного функціонала $T\!$ на внесене додавання, показуючи вплив від внеску окремого спостереження $x\!$ на оцінку по всій сукупності даних.

Для характеристики впливу окремих спостережень також уводять поняття чутливості до великої помилки $\gamma$ :

$\gamma =\sup _{x\in \mathbb {X} }|IF(x)|$

Якщо функція впливу обмежена, то відповідну оцінку називають B(бэ)-робастною.

М-оцінки[ред. | ред. код]

Найбільш ефективними і широко використовуваними оцінками параметрів законів розподілів є оцінки максимальної правдоподібності (ОМП), що визначаються однією з наступних умов:

\sum _{i}\ln P_{i}\to \max _{\theta \in \Theta },\qquad \sum _{i}{\frac {\partial \ln P_{i}}{\partial \theta }}=0,\qquad \sum _{i}{\frac {P_{i}'}{P_{i}}}=0\!

де у випадку негрупованої вибірки $P_{i}=f(x_{i},\theta )\!$ , а у випадку групованої — $P_{i}=\left(\int \limits _{x_{i-1}}^{x_{i}}f(x,\theta )\,\mathrm {d} x\right)^{n_{i}}\!$

М-оцінки — є деяке узагальнення ОМП. Вони визначаються аналогічно одним зі співвідношень:

$\sum _{i=1}^{N}\rho (x_{i},\theta )\to \max _{\theta \in \Theta },\qquad \sum _{i=1}^{N}\phi (x_{i},\theta )=0\!$

Якщо накласти умову регулярності в підстановці $F_{t,x}=(1-t)F+t\Delta _{x}\!$ і продиференціювать його по $t\!$ у 0:

0={\frac {\partial }{\partial {t}}}\int \phi (x,T(F_{t,x}))\,\mathrm {d} F_{t,x}\!

0=\int {\frac {\partial \phi (x,T(F_{t,x}))}{\partial \theta }}IF\,\mathrm {d} F_{t,x}+\int \phi (x,T(F_{t,x}))\,\mathrm {d} {\frac {\partial ((1-t)F+t\Delta _{x})}{\partial t}}\!

:: $0=IF\int {\frac {\partial \phi (x,T(F_{t,x}))}{\partial \theta }}\,\mathrm {d} F_{t,x}+\phi (x,T(F_{t,x}))\!$

те не представляє великої праці одержати вираження функції впливу для M-оцінок: $IF={\frac {-\phi (x)}{\int \phi '_{\theta }(x)\,\mathrm {d} F}}\!$

Зазначений вираз дозволяє зробити висновок про те, що M-оцінки еквівалентні з точністю до ненульового множника-константи.

Нескладно перевірити, що для ОМП стандартного нормального закону розподілу ${\mathcal {N}}(0,1)\!$ функції впливу $IF\!$ параметра зрушення і параметра масштабу виглядають відповідно:

IF=x,\quad IF={\frac {1}{2}}\;x^{2}-{\frac {1}{2}}\!

Ці функції необмежені, а це значить, що ОМП не є робастной у термінах B-робастности.

Для того, щоб це виправити, M-оцінки штучно обмежують, а значить і обмежують її $IF\!$ (див. вираження $IF\!$ для M-оцінок), установлюючи верхній бар'єр на вплив різко виділяються (далеко віддалених від передбачуваних значень параметрів) спостережень. Робиться це введенням так званих усічених M-оцінок, обумовлених вираженням:

$\phi _{b}(z)=\left\{{\begin{array}{lr}\phi (b),&b<z\\\phi (z),&-b<z\leqslant b\\\phi (-b),&z\leqslant -b\end{array}}\right.\!$

де $z={\frac {x-\theta }{S}}$ , $\theta \!$ і $S\!$ — оцінки параметрів зрушення і масштабу відповідно.

Серед усічених M-оцінок оптимальними з погляду B-робастности є усічені ОМП.

Процедура оцінювання параметрів[ред. | ред. код]

Щоб розв’язати рівняння $\sum _{i=1}^{N}\phi (x_{i},\theta )=0\!$ необхідно скористатися яким-небудь чисельним методом. Для цього знадобиться вибрати початкові наближення. Нульовим параметром зрушення звичайно служить медіана, параметром масштабу — значення, кратне медіані відхилень від медіани.

Наприклад, якщо необхідно оцінити параметр зрушення, скажемо, нормального закону розподілу, можна скористатися методом Ньютона чисельного перебування коренів рівняння. У результаті вся процедура перебування параметра зводиться до ітеративного обчислення вираження:

\theta _{k+1}=\theta _{k}-{\frac {\sum _{i=1}^{N}\phi (x_{i},\theta _{k})}{\sum _{i=1}^{N}\phi '_{\theta }(x_{i},\theta _{k})}}=\theta _{k}-{\frac {\sum _{i=1}^{N}\phi \left((x_{i}-\theta _{k})/S\right)}{\sum _{i=1}^{N}\phi '_{\theta }\left((x_{i}-\theta _{k})/S\right)}}=\theta _{k}+S{\frac {\sum _{i=1}^{N}\phi \left(z\right)}{\sum _{i=1}^{N}\phi '_{z}\left(z\right)}}

,

де $S\!$ — деяка оцінка параметра масштабу, що потрібна для того, щоб зрівняти розподілу з різним розмахом.

Див. також[ред. | ред. код]

Публікації з робастних методів оцінювання параметрів і перевірки статистичних гіпотез на сайті професора НГТУ Лемешко Б. Ю.

Джерела[ред. | ред. код]

Карташов М. В. Імовірність, процеси, статистика. — Київ : ВПЦ Київський університет, 2007. — 504 с.
Гнеденко Б. В. Курс теории вероятностей. — 6-е изд. — Москва : Наука, 1988. — 446 с.(рос.)
Гихман И. И., Скороход А. В., Ядренко М. В. Теория вероятностей и математическая статистика. — Київ : Вища школа, 1988. — 436 с.(рос.)

Робастність у статистиці

Зміст

Вступ[ред. | ред. код]

Поняття робастності[ред. | ред. код]

Основні підходи[ред. | ред. код]

Групування даних як метод робастної статистики[ред. | ред. код]