Критерій узгодженості Пірсона

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Критерій узгодженості Пірсона - один з найвідоміших критеріїв \chi^2, тому його часто і називають просто "критерій хі-квадрат". Використовується для перевірки гіпотези про закон розподілу.

Ґрунтується на групованих даних. Область значень передбачуваного розподілу \digamma_1 ділять на деяке число інтервалів.
Після чого будують функцію відхилення ρ по різницях теоретичних імовірностей попадання в інтервали групування й емпіричних частот.

Нехай X=(X1,…, Xn) — вибірка з розподілу \digamma. Перевіряється проста гіпотеза H_1={\digamma = \digamma_1} проти складної альтернативи H_2={\digamma \ne \digamma_1}.
Нехай A1,…, Ak — інтервали групування в області значень випадкової величини з розподілом \digamma_1.
Позначимо для j=1,…,k через \nu_j число елементів вибірки, що потрапили в інтервал A_j:
\nu_j=(X_i \in A_j) = \sum_{i=1}^{n} I(X_i \in A_j),

і через p_j>0 — теоретичну ймовірність P_{H1}(X_1 \in A_j) попадання в інтервал A_j випадкової величини з розподілом \digamma_1.
З необхідністю, p_1+...+p_k=1.
Як правило, довжини інтервалів вибирають так, щоб p_1=...=p_k= \frac{1}{k}.
Нехай \rho(X)=\sum_{j=1}^{k} \frac{(\nu_j-np_j)^2}{np_j} (1).

Зауваження[ред.ред. код]

Якщо розподіл вибірки \digamma_2 \ne \digamma_1 має такі ж, як в \digamma_1, імовірності p_j попадання в кожний з інтервалів A_l, то по даній функції \rhoці розподіли розрізнити неможливо.
Тому насправді критерій, який ми побудуємо по функції \rhoз (1), вирішує зовсім інше завдання. А саме, нехай заданий набір імовірностей p_1,...,p_k такий, що p_1+...+p_k=1. Критерій \chi^2 призначений для перевірки складної гіпотези H2'={розподіл Х1 має властивість: Р(Х1 ∈ Аj)=pj для всіх j=1,…,k} проти складної альтернативи H2'={H1' невірна}, тобто H2'={хоча б для одного з інтервалів ймовірність P(X1 ∈ Аj) відізняється від pj}

Правило критерію[ред.ред. код]

Перед тим, як сформулювати правило прийняття або відкидання гіпотези необхідно врахувати, що критерій Пірсона має правобічну критичну область.

Logo arte.jpg Правило.
Якщо отримана статистика перевищує квантиль розподілу \chi^2\! заданого рівня значимості \alpha\! з (k-1)\! або з (k-p-1)\! ступенями вільності, де k — число спостережень або число інтервалів (для випадку інтервального варіаційного ряду), а p — число оцінюваних параметрів закону розподілу, то гіпотеза H_0\! відкидається. А якщо ні, то гіпотеза приймається на заданому рівні значимості \alpha\!.


Теорема Пірсона[ред.ред. код]

Якщо вірна гіпотеза H1', то при фіксованому k й при n \to \infty: \rho(X)=\sum_{j=1}^{k} \frac{(\nu_j-np_j)^2}{np_j} \Rightarrow H_{k-1},

де, нагадаємо,H_{k-1}, є \chi^2-розподіл зі k-1 ступенем вільності.

Зауваження[ред.ред. код]

Насправді критерій \chi^2 застосовують і для розв'язку первісного завдання про перевірку гіпотези H_1={\digamma=\digamma_1}. Необхідно тільки пам'ятати, що цей критерій не заможний для альтернатив з тими ж імовірностями попадання в інтервали розбиття, що й в \digamma_1. Тому беруть велику кількість інтервалів розбиття — чим більше, тим краще, щоб «зменшити» число альтернатив, нерозрізнених з передбачуваним розподілом.

Критерій Пірсона для перевірки параметричної гіпотези[ред.ред. код]

Критерій \chi^2 часто застосовують для перевірки гіпотези про вид розподілу, тобто про приналежність розподілу вибірки деякому параметричному сімейству. Є вибірка X=(X_1,...,X_n) з невідомого розподілу\digamma .
Перевіряється складна гіпотеза: H_1={\digamma \in {\digamma_\theta}},

де \theta \epsilon \Theta \subseteq \mathbb{R}^l — невідомий параметр (скалярний або векторний), l- його розмірність.
Нехай \mathbb{R} розбите на k>lінтервалів A_1 \cup ... \cup A_k, і \nu_j — число елементів вибірки, що потрапили вA_j. Але ймовірність p_j=P_{H1}(X_1 \in A_j)=p_j(\theta) тепер залежить від невідомого параметра .
Функція відхилення (1) також залежить від невідомого параметра, і використовувати її в критерії Пірсона не можна — ми не можемо обчислити її значення: \rho(X,\theta)=\sum_{j=1}{k} \frac{(\nu_j-np_j(\theta))^2}{np_j(\theta)}(2.)
Нехай \hat \theta=\hat \theta(X)- значення параметра \theta, що доставляє мінімум функції \rho(X,\theta) при даній вибірці X .
Підставивши замість дійсних імовірностей pjїх оцінки p_j(\hat \theta) , одержимо функцію відхилення:\rho(X, \hat \theta)=\sum_{j=1}{k} \frac{(\nu_j-np_j( \hat \theta))^2}{np_j( \hat \theta)}.

Див. також[ред.ред. код]

Література[ред.ред. код]

  • Кендалл М., Стьюарт А. Статистические выводы и связи. — М.: Наука, 1973.