Перевірка статистичних гіпотез

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Перевірка статистичних гіпотез — клас базових задач в математичній статистиці.

Статистичні гіпотези[ред.ред. код]

Визначення[ред.ред. код]

Нехай у (статистичному) експерименті спостерігається реалізація X_1, X_2, \dots X_n деякої випадкової величини X, розподіл якої \mathbb{P} невідомий повністю чи частково. Тоді будь-яке твердження, що стосується \mathbb{P}, називається статистичною гіпотезою. Гіпотези розрізняються за видом припущень, що містяться в них:

  • Статистична гіпотеза, що однозначно визначає розподіл \mathbb{P}, тобто H:\;\{\mathbb{P}= \mathbb{P}_0\}, де \mathbb{P}_0 якийсь конкретний закон, що має назву простий.
  • Статистична гіпотеза, що стверджує, що розподіл \mathbb{P} належить до деякої сім'ї розподілів, тобто виду H:\;\{\mathbb{P}\in \mathcal{P}\}, де \mathcal{P} — сім'ю розподілів, що має назву складна.

На практиці зазвичай потрібно перевірити якусь конкретну і, як правило, просту гіпотезу H_0. Таку гіпотезу прийнято називати нульовою. При цьому паралельно розглядається гіпотеза, що протирічить їй H_1, що називається конкуруючою або альтернативною.

Висунута гіпотеза потребує перевірки, яка здійснюється статистичними методами, тому гіпотезу називають статистичною. Для перевірки гіпотези використовують критерії, що дозволяють прийняти або спростувати гіпотезу.

В більшості випадків статистичні критерії засновані на випадковій вибірці (X_1,X_2,\dots,X_n) фіксованого об'єму n\geq 1 з розподілу \mathbb P. У послідовному аналізі вибірка формується в ході самого експерименту і тому її об'єм є випадковим величиною.

Приклад[ред.ред. код]

Нехай дано незалежну вибірку (X_1,\ldots,X_n) \sim \mathcal{N}(\mu, 1) з нормального розподілу, де \mu — невідомий параметр. Тоді H_0:\;\{\mu = \mu_0\}, де \mu_0 — фіксована стала, є простою гіпотезою, а альтернативна до неї H_1:\;\{\mu > \mu_0\} — складною.

Етапи перевірки статистичних гіпотез[ред.ред. код]

  1. Формулювання основної гіпотези H_0 і конкуруючої гіпотези H_1. Гіпотези повинні бути чітко формалізовані в математичних термінах.
  2. Задання вірогідності \alpha, що називається рівнем значущості і що відповідає помилкам першого роду, на якому надалі і буде зроблений висновок про правдивість гіпотези.
  3. Розрахунок статистики \phi критерію такий, що:
    • її величина залежить від початкової вибірки \mathbf{X}=(X_1,\ldots,X_n): \; \phi=\phi(X_1,\ldots,X_n) ;
    • за її значенням можна зробити висновки про істинність гіпотези H_0;
    • сама статистика \phi повинна підкорятися якомусь невідомому закону розподілу, так як сама \phi є випадковою в силу випадковості \mathbf{X}.
  4. Побудова критичної області. З області значень \phi виділяємо підмножину \mathbb{C} таких значень, за якими можна судити про суттєвість розбіжностей з припущенням. Її розмір вибирається таким чином, щоб виконувалась рівність P(\phi\in\mathbb{C})=\alpha. Ця множина \mathbb{C} і називається критичною областю.
  5. Висновок про істинність гіпотези. Спостережувані значення вибірки підставляються в статистику \phi і за попаданням (або непопаданням) у критичну область \mathbb{C} виноситься ухвала про відкидання (або ухвалення) висунутої гіпотези H_0.

Види критичної області[ред.ред. код]

  • Двобічна критична область визначається двома інтервалами (-\infty,\;x_{\alpha/2})\cup(x_{1-\alpha/2}\;+\infty), де x_{\alpha/2},\; x_{1-\alpha/2} знаходять з умов P(\phi<x_{\alpha/2})=\frac{\alpha}{2}, \quad P(\phi<x_{1-\alpha/2})=1-\frac{\alpha}{2}.
  • Лівобічна критична область визначається інтервалом (-\infty,\; x_\alpha) , де x_\alpha знаходять з умови P(\phi<x_\alpha)=\alpha.
  • Правобічна критична область визначається інтервалом (x_{1-\alpha},\;+\infty) , де x_{1-\alpha} знаходять з умови P(\phi<x_{1-\alpha})=1-\alpha.

Дивіться також[ред.ред. код]