Робастність у статистиці

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Вступ[ред.ред. код]

Якщо в параметричних постановках на дані накладаються занадто тверді вимоги - їх функції розподілу повинні належати визначеному параметричному сімейству, то в непараметричних, навпаки, зайво слабкі - потрібно лише, щоб функції розподілу були безупинні. При цьому ігнорується апріорна інформація про те, який "зразковий вид" розподілу. Апріорі можна чекати, що облік цього "зразкового виду" поліпшить показники якості статистичних процедур. Розвитком цієї ідеї є теорія стійкості (робастности) статистичних процедур, у якій передбачається, що розподіл вихідних даних мало відрізняється від деякого параметричного сімейства. З 60-х років цю теорію розробляли П.Хубер, Ф.Хампель і багато хто інші. З монографій російською мовою, що трактують про робастності і стійкість статистичних процедур, найранішою і найзагальнішою була книга, що випливає - монографія. Окремими випадками реалізації ідеї робастності (стійкості) статистичних процедур є розглянуті нижче статистика об'єктів нечислової природи та інтервальна статистика.

Існує велика розмаїтість моделей робастності в залежності від того, які саме відхилення від заданого параметричного сімейства допускаються. Найпопулярнішою виявилася модель викидів, у якій вихідна вибірка "засмічується" малим числом "викидів", що мають принципово інший розподіл. Однак ця модель представляється "тупиковою", оскільки в більшості випадків великі викиди або неможливі через обмеженість шкали приладу, або від них можна позбутися, застосовуючи лише статистики, побудовані по центральній частині варіаційного ряду. Крім того, у подібних моделях звичайно вважається відомої частота засмічення, що в сполученні зі сказаним вище робить їх малопридатними для практичного використання. Перспективнішою представляється модель Ю.Н. Благовіщенського, у якій відстань між розподілом кожного елемента вибірки і базовим розподілом не перевершує заданої малої величини.

Робастність у статистиці надає підходи, спрямовані на зниження впливу викидів і інших відхилень у досліджуваній величині від моделей, використовуваних у класичних методах статистики. На практиці наявність у вибірках навіть невеликого числа різких викидів може призвести до того, що значення, одержувані в результаті, можуть перестати нести в собі який-небудь зміст. Для того, щоб уникнути подібних неприємностей, необхідно якимось образом знизити вплив "поганих" спостережень, або зовсім виключити їх. Однак виникає питання: "Як відрізнити "погане" спостереження від "гарного"?" Навіть найпростіший з підходів - суб'єктивний (заснований на внутрішніх відчуттях статистика) - може принести значну користь, однак для відбраковування все-таки переважніше застосовувати методи, що мають у своїй основі деякі строгі математичні обґрунтування, а не тільки інтуїтивні припущення дослідника. Цей процес являє собою дуже нетривіальну задачу для статистика і визначає собою один з напрямків статистичної науки.

Поняття робастності[ред.ред. код]

Під робастністю в статистиці розуміють нечутливість до різних відхилень і неоднородностям у вибірці, зв'язаним з тими чи іншими, у загальному випадку невідомими, причинами. Це можуть бути помилки детектора, що реєструє спостереження, чиїсь сумлінні чи не дуже спроби "підігнати" вибірку до того, як вона потрапить до статистики, помилки оформлення, неочікувані помилки та багато чого іншого. Наприклад, найбільш робастною оцінкою параметра зрушення закону розподілу є медіана, що на інтуїтивному рівні цілком очевидно (для строгого доказу варто скористатися тим, що медіана є усіченою М-оцінкою). Крім безпосередньо "бракованих" спостережень також може бути присутньою деяка кількість спостережень, що підкоряються іншому розподілу. Через умовність законів розподілів, а це не більш, ніж моделі опису, сама по собі вибірка може містити деякі розбіжності з ідеалом.

Проте, параметричний підхід настільки вжився, довівши свою простоту і доцільність, що безглуздо від нього відмовлятися. Тому і виникла необхідність пристосувати старі моделі до нових задач.

Варто окремо підкреслити і не забувати, що відбраковані спостереження мають потребу в окреміїй більш пильній увазі. Спостереження, що здаються "поганими" для однієї гіпотези, можуть цілком відповідати інший. Нарешті, аж ніяк не завжди спостереження, що різко виділяються, є "браком". Одне таке спостереження для генної інженерії, приміром, коштує мільйонів інших, що мало відрізняються одне від одного.

Основні підходи[ред.ред. код]

Для того, щоб обмежити вплив неоднорідностей, або ж зовсім його виключити, існує безліч різних підходів. Серед них виділяються два основних напрямки:

  • Згрупувати дані, не відбраковуючи окремі спостереження, у такий спосіб значно знизивши можливість псування вибірки окремими випадами. Після чого з достатнім ступенем упевненості користатися класичними методами статистики.
  • Відслідковувати викиди безпосередньо в процесі аналізу. Наприклад, для визначення параметрів закону розподілу використовувати ітераційну процедуру з усіченими чи th- зниженими M-оцінками.

Групування даних як метод робастной статистики[ред.ред. код]

За допомогою групування вибірки можна різко знизити вплив окремих спостережень, не відкидаючи їх. Розбивка на інтервали не представляє особливих труднощів і дає дуже відчутний результат. Існує три найбільш розповсюджені способи розбивки:

  • Розбивка на інтервали рівної довжини. Найбільш простий і тому розповсюджений спосіб.
  • Розбивка на інтервали рівної імовірності, також називане рівночастотним групуванням, що відбиває практичну реалізацію цього методу. У результаті такого групування вибірки здійснюється максимізація величини інформаційної ентропії \sum {-P_i} \ln {P_i}, де P_i = \int\limits_{x_{i-1}}^{x_i} f(x) \, \mathrm{d} x\! і досягається найбільша асимптотична потужність критерію згоди \chi^2, або критерію відношення правдоподібності.
  • Розбивка на асимптотично оптимальні інтервали. При такій розбивці мінімізуються втрати інформації в результаті групування, тобто максимізується фишеровська інформація \sum \left( \frac{\partial \ln P_i}{\partial \theta} \right) ^2 P_i \!, де \theta \! - оцінюваний параметр закону. Для багатьох законів розподілу удалося одержати інваріантні щодо параметрів межі інтервалів, і були складені відповідні таблиці. Така розбивка дозволяє максимізувати потужність критерію.

Підхід, заснований на функції впливу[ред.ред. код]

Уведення[ред.ред. код]

У даному розділі розглядаються аспекти, що стосуються оцінювання параметрів закону розподілу по "засміченій" вибірці з використанням підходу, запропонованого Хампелем. Для того, щоб вивчити вплив окремо узятого спостереження на оцінку (розглянуту статистику) того чи іншого параметра закону розподілу Хампелем уводиться так називана функція впливу (influence function), що являє собою ні що інше, як похідну цієї статистики.

Основні поняття[ред.ред. код]

Уведемо функціонал T\!, як функцію від деякої вибірки X=(X_1 \ldots X_n) \in \mathbb{X}\! з розподілу F\! c параметром \theta \in \Theta\! (воно ж F_\theta\!). T\! залежить від X:F_\theta\!. Значить T\! є функцією від закону F\! і від параметра \theta\!. Нехай T\! також задовольняє деяким умовам заможності і регулярності:

T(F) = \theta, \quad \int T \, \mathrm{d} F = 0.\!

Визначимо похідну цього функціонала T\! у точці з розподілом F\! у такий спосіб:

\exists \, a: \quad \lim_{t \to 0} \frac{T((1 - t)F+t G) - T(F)}{t} := \int a \, \mathrm{d} G ,\!

де a\! - деяка функція, зміст якої проясниться на наступному кроці, а G\! - деякий закон розподілу, відмінний від F\!.

Підставимо \Delta_x\!, що приписує одиничну масу події X = x\!, замість G\!, у результаті чого від інтеграла в правій частині вираження залишиться тільки a(x)\!, і перепишемо результат, що вийшов, у наступному виді:

IF = \lim_{t \to 0} \frac{T((1 - t) F + t \Delta_x) - T(F)}{t}\!

Цю функцію і називають функцією впливу.

Щоб пояснити зміст уведеного поняття підставимо \frac{1}{n}\! замість t\!, замінивши межу. У результаті вираження F_{t,x}=(1 - t)F + t \Delta_x \! перетвориться в F_{\frac{1}{n},x}=\frac{(n-1)F + \Delta_x}{n}\!, що відповідає ситуації, коли у вибірку, що складається з (n-1)\! спостереження, що підкоряються розподілу F\!, додають ще одне нове. У такий спосіб IF\! відслідковує реакцію використовуваного функціонала T\! на внесене додавання, показуючи вплив від внеску окремого спостереження x\! на оцінку по всій сукупності даних.

Для характеристики впливу окремих спостережень також уводять поняття чутливості до великої помилки \gamma :

\gamma = \sup_{x \in \mathbb{X}} | IF(x) |

Якщо функція впливу обмежена, то відповідну оцінку називають B(бэ)-робастной.

М-оцінки[ред.ред. код]

Найбільш ефективними і широко використовуваними оцінками параметрів законів розподілів є оцінки максимальної правдоподібності (ОМП), що визначаються однією з наступних умов:

\sum_i \ln P_i  \to  \max_{\theta \in \Theta},\qquad \sum_i \frac{\partial \ln P_i}{\partial \theta} = 0, \qquad \sum_i \frac{P_i'}{P_i} = 0\!

де у випадку негрупованої вибірки P_i=f(x_i,\theta)\!, а у випадку групованої - P_i=\left( \int\limits_{x_{i-1}}^{x_i} f(x,\theta) \, \mathrm{d} x \right)^{n_i}\!

М-оцінки - є деяке узагальнення ОМП. Вони визначаються аналогічно одним зі співвідношень:

\sum_{i=1}^N \rho(x_i,\theta) \to \max_{\theta \in \Theta}, \qquad \sum_{i=1}^N \phi(x_i,\theta) =0\!

Якщо накласти умову регулярності в підстановці  F_{t,x}=(1-t)F+t\Delta_x \! і продиференціювать його по t\! у 0:

0 = \frac{\partial}{\partial{t}} \int \phi(x,T(F_{t,x})) \, \mathrm{d} F_{t,x}\!
0 = \int \frac{\partial \phi(x,T(F_{t,x}))}{\partial \theta} IF \, \mathrm{d} F_{t,x} + \int \phi(x,T(F_{t,x})) \, \mathrm{d} \frac{\partial ((1-t)F + t \Delta_x)}{\partial t}\!


:: 0 = IF \int \frac{\partial \phi(x,T(F_{t,x}))}{\partial \theta}  \, \mathrm{d} F_{t,x} + \phi(x,T(F_{t,x}))\!

те не представляє великої праці одержати вираження функції впливу для M-оцінок: IF=\frac{-\phi(x)} {\int \phi'_{\theta} (x) \, \mathrm{d} F}\!

Зазначений вираз дозволяє зробити висновок про те, що M-оцінки еквівалентні з точністю до ненульового множника-константи.

Нескладно перевірити, що для ОМП стандартного нормального закону розподілу \mathcal{N}(0,1)\! функції впливу IF\! параметра зрушення і параметра масштабу виглядають відповідно:

 IF = x, \quad IF = \frac{1}{2} \; x^2 - \frac{1}{2}\!

Ці функції необмежені, а це значить, що ОМП не є робастной у термінах B-робастности.

Для того, щоб це виправити, M-оцінки штучно обмежують, а значить і обмежують її IF\! (див. вираження IF\! для M-оцінок), установлюючи верхній бар'єр на вплив різко виділяються (далеко віддалених від передбачуваних значень параметрів) спостережень. Робиться це введенням так званих усічених M-оцінок, обумовлених вираженням:

\phi_b (z)=\left\{ \begin{array}{lr}
\phi(b), & b < z \\
\phi(z), & -b < z \leqslant b \\
\phi(-b), & z \leqslant -b
\end{array} \right.\!

де z=\frac{x-\theta}{S}, \theta\! і S\! - оцінки параметрів зрушення і масштабу відповідно.

Серед усічених M-оцінок оптимальними з погляду B-робастности є усічені ОМП.

Процедура оцінювання параметрів[ред.ред. код]

Щоб вирішити рівняння \sum_{i=1}^N \phi(x_i,\theta) =0\! необхідно скористатися яким-небудь чисельним методом. Для цього знадобиться вибрати початкові наближення. Нульовим параметром зрушення звичайно служить медіана, параметром масштабу - значення, кратне медіані відхилень від медіани.

Наприклад, якщо необхідно оцінити параметр зрушення, скажемо, нормального закону розподілу, можна скористатися методом Ньютона чисельного перебування коренів рівняння. У результаті вся процедура перебування параметра зводиться до ітеративного обчислення вираження:

\theta_{k+1}=\theta_k - \frac{\sum_{i=1}^N \phi (x_i,\theta_k)}{\sum_{i=1}^N \phi'_\theta (x_i,\theta_k)}=\theta_k - \frac{\sum_{i=1}^N \phi \left((x_i-\theta_k)/S\right)}{\sum_{i=1}^N \phi'_\theta \left((x_i-\theta_k)/S\right)}=\theta_k + S \frac{\sum_{i=1}^N \phi \left(z\right)}{\sum_{i=1}^N \phi'_z \left(z\right)},

де S\! - деяка оцінка параметра масштабу, що потрібна для того, щоб зрівняти розподілу з різним розмахом.

Див. також[ред.ред. код]