Статистична значущість

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Статистична значущість, p-рівень або p-значення результату в статистиці являє собою оцінку міри впевненості в його «істинності» (у розумінні «репрезентативності вибірки»). У статистиці величину називають статично значущою, якщо мала ймовірність чисто випадкового виникнення її або ще більш крайніх величин. Тут під крайністю розуміється ступінь відхилення від нульової гіпотези. Різниця називається «статистично значущою», якщо є дані, поява яких була б маловірогідна, якщо припустити, що ця різниця відсутня; цей вираз не означає, що дана різниця повинна бути велика, важлива, або значуща в загальному сенсі цього слова.

Рівень значущості тесту — це традиційне поняття перевірки гіпотез в частотній статистиці. Він визначається як вірогідність ухвалити рішення відхилити нульову гіпотезу, якщо насправді нульова гіпотеза вірна (рішення відоме як похибка першого роду). Процес рішення часто спирається на p-величину (читається «пі-величина»): якщо p-величина менше рівня значущості, то нульова гіпотеза відкидається. Чим менше p-величина, тим більше значущою називається тестова статистика. Чим менше p-величина, тим сильніше за підставу відкинути нульову гіпотезу.

Рівень значущості звичайно позначають грецькою буквою α (альфа). Популярними рівнями значущості є 10%, 5%, 1%, і 0,1%. Якщо тест видає p-значення менше α-рівня, то нульова гіпотеза відхиляється. Такі результати називають «статистично значущими». Наприклад, якщо хтось говорить, що «шанси того, що те, що трапилося є збігом, рівним одному з тисячі», то мають на увазі 0,1% рівень значущості.

P-рівень (цей термін був уперше використаний у роботі Brownlee, 1960) — це показник, що знаходиться в оберненій залежності від надійності результату. Вищий p-рівень відповідає нижчому рівневі довіри до знайденої у вибірці залежності між змінними. Саме, p-рівень являє собою імовірність помилки, зв'язаної з поширенням результату, що він спостерігається, на всю популяцію. Наприклад, p-рівень = .05 (тобто 1/20) показує, що існує 5% імовірність того, що знайдений у вибірці зв'язок між змінними є лише випадковою особливістю даної вибірки. Іншими словами, якщо дана залежність у популяції відсутня, а ви багаторазово проводили б подібні експерименти, то приблизно в одному з двадцяти повторень експерименту можна було б очікувати таку саме або сильнішу залежність між змінними. Відзначимо, що це не те саме, що стверджувати про реальну наявність залежності між змінними, котра в середньому може бути відтворена в 5% або 95% випадків; коли між змінними популяції існує залежність, імовірність повторення результатів дослідження, що показують наявність цієї залежності має назву статистична потужність плану. У багатьох дослідженнях p-рівень .05 розглядається як «припустима границя» рівня помилки.

Різні значення α-рівня мають свої переваги і недоліки. Менші α-рівні дають велику упевненість в тому, що вже встановлена альтернативна гіпотеза значуща, але при цьому є більший ризик не відкинути помилкову нульову гіпотезу (похибка другого роду), і таким чином менша статистична потужність. Вибір α-рівня неминуче вимагає компромісу між значущістю і потужністю, і, отже, між вірогідністю похибок першого і другого роду. У вітчизняних наукових роботах часто вживається неправильний термін «достовірність» замість терміну «статистична значущість»[1].

Визначення і тлумачення[ред.ред. код]

P-value in statistical significance testing.svg

р-значення визначається як ймовірність припущення гіпотез Н отримання результату рівного або не меншого ніж спостерігалося. В залежності від того, як на це подивитися, «не меншого ніж спостерігалося» може означати (правобічна альтернатива) і (лівобічна альтернатива) або «менше» і (двостороння альтернатива). Таким чином р-величина визначається:

  • для правобічної альтернативи,
  • для лівобічної альтернативи,
  • для двосторонньої альтернативи.

Чим менше р-величина, тим більше значення, так як це говорить досліднику, що розглянута гіпотеза не може адекватно пояснити спостереження. Гіпотеза Н відкидається, якщо яка-небудь із ймовірностей менше або дорівнює невеликій, фіксована, але довільно визначає граничне значення α. На відміну від р-значення, α-рівень не є похідною від будь-яких даних і не залежить від основної гіпотези; значення α визначається консенсусом наукового співтовариства, в якому працює дослідник. Так як величина Х, яка визначає лівобічну або правобічну альтернативу, є випадковою величиною, це робить р-значення функції Х, і випадкова величина сама по собі визначається {0,1} інтервалом, припускаючи, що х безперервний. р-значення не фіксовано, це означає, що р-значення не дає тлумачення частих підрахунків. Іншими словами, якщо один і той же тест повторюється не залежно один від одного, має відношення до однієї і тієї ж нульової гіпотези, то в кожному повторенні він буде давати різні р-значення. Ці різні р-значення можуть бути об'єднані за допомогою комбінованого тесту ймовірностей Фішера. Слід зазначити, що конкретизацією цього випадкового р-значення може бути дано тлумачення частоти підрахунків щодо кількості спостережень, зроблених під час даного тесту. Фіксований зумовлений α-рівень можна витлумачити як значення помилково відкинутої нульової гіпотези

Це означає, що, якщо ми зафіксуємо конкретизацію р-значення, і дозволимо α варіювати над {0,1}, можна отримати еквівалентне тлумачення р-значення через α рівень, як найменше значення α. Очевидно, припускаючи, що α менше ніж р-значення, в кінцевому підсумку не відкине нульову гіпотезу.

Обчислення[ред.ред. код]

Як правило замість справжніх спостережень є тестовою статистикою. Тестова статистика є скалярною функцією всіх спостережень, таких як середнє або коефіцієнт кореляції, які узагальнюють характеристики даних одним числом, що відносяться до конкретного запиту. Тестова статистика дотримується розподілу, визначеного функцією, яка використовується для визначення цієї тестової статистики, і розподілу вхідних даних спостережень. Обчислення р-значення потребують нульової гіпотези, тестової статистики і даних. Не дивлячись на те, що обчислення тестової статистики на наведених даних може бути простим, обчислення розподілу вибірки при нульовій гіпотезі, а потім його обчислення інтегральної функції розподілу часто складні. На сьогодні ці обчислення здійснюються з використанням статистичного програмного забезпечення. Часто з допомогою чисельних методів, а не точних формул. На початку ΧΧ століття замість зробленої таблиці значень інтерполяція або екстраполяція р-значень дискретних значень. Замість того щоб використовувати таблицю р-значень Фішер опублікував список значень тестової статистики даних для фіксованих р-значень.

Приклади[ред.ред. код]

Ось простий приклад, який демонструє потенційну пастку.

Кидок пари кубиків[ред.ред. код]

Припустимо, що дослідник кидає пару кубиків один раз і нульова гіпотеза припускає, що кубики однакові, не зміщені в бік якогось числа або результату. Тестова статистика це сума випавших чисел. Дослідник кидає кубики і зауважує, що обидва кубики показують 6, що говорить про те, що тестова статистика дорівнює 12, і значення цього результату дорівнює 1/36 (так як припущення нульової гіпотези, тестова статистика рівномірно розподілена), або близько 0,028 (найвищий статистичний тест з 6*6=36 можливих результатів). Якщо дослідник припускає рівень значущості 0.05 цей результат буде вважатися значущим і гіпотеза про те, що кубики чесні буде відхилена.

Розподіл[ред.ред. код]

Якщо нульова гіпотеза вірна, то розподіл ймовірності р-значення рівномірний на відрізку {0,1}. Протилежність цьому, якщо альтернативна гіпотеза вірна, розподіл залежить від розміру вибірки та істинного значення досліджуваного параметра. Розподіл р-значень для групи досліджень називають р-кривий. Крива залежить від чотирьох факторів: ймовірність того, що дослідження вивчає справжню гіпотезу, а не викривлену, силу досліджень істинної гіпотези, частоту першого типу помилки. р-крива може бути використана для оцінки достовірності наукової літератури, шляхом виявлення систематичної помилки.

Історія[ред.ред. код]

Pierre-Simon-Laplace (1749-1827).jpg
Biologist and statistician Ronald Fisher.jpg

Розрахунки р-величин сходять до 70 років де вони були обчислені П'єр-Симон Лапласом. [2] І величина була вперше офіційно представлена Карлом Пірсаном. Використання р-значення в статистиці популяризував Рональд Фішер. І р-значення відіграє ключову роль в його підході до цього питання у книзі «Статистичні методи для наукових працівників» (1925). Фішер пропонує рівень р=0.05 або 1 з 20 шансів випадкового перевищення як межа статистичної значущості, і застосовує це до нормального розподілу, повчаючи таким чином правила двох стандартних відхилень для статистичної значущості. Потім він обчислює таблицю значень подібну таблиці значень Элдертона. Але, що дуже важливо, змінює роль і , тобто замість того щоб обчислювати р при різних значеннях Х² (і ступенів свободи n) він обчислює значення Х², які дають р значення, а саме 0.99, 0.98, 0.95, 0,90, 0.80, 0.70, 0.50, 0.30, 0.20, 0.10, 0.05, 0.02, і 0.01. це дозволяє заохочувати використання р-значень (особливо 0.05, 0.02, 0.01) у вигляді відсічення, а не самих обчислень і звітності р-значень. Такі ж таблиці потім були зібрані в «Фішер & Єйтс 1938» і закріпили цей підхід. Як ілюстрації застосування р-значень розробки тлумаченні експериментів у своїй наступній книзі «Розробка експериментів» (1935) Фішер представив експеримент з дегустації чаю леді, що є архітиповим прикладом р-значення. Для того, щоб оцінити заяву леді про те, що вона (Мюріель Брістоль) може розрізняти на смак, як приготований чай (спочатку додається молоко в чашку, а потім чай або чай, а потім молоко). Їй представили послідовно 8 чашок: 4 приготовані одним із способів, 4 – іншим, і попросили визначити спосіб приготування кожної чашки. В даному випадку нульовою гіпотезою було те, що у неї не було особливої здатності і р-значення рівнянь, так що Фішер був готовий відхилити нульову гіпотезу якщо все правильно класифікувати. В експерименті Брістоль правильно класифікувала всі 8 чашок. Фішер визначив р=0.05 і пояснив своє обґрунтування заявивши наступне: [3] Також він застосовує цей поріг до розробки експериментів, зазначивши, що було представлено лише шість чашок (кожної по три), ідеальна класифікація матиме р-значень , які б не зустрів такого рівня значущості. Також Фішер підкреслив часту інтерпретацію р в довгостроковій перспективі значень, припускаючи, що нульова гіпотеза вірна.

Неправильне розуміння[ред.ред. код]

У більш пізних виданнях Фішер явно контрастує використання р-значення для статистичних висновків науки з методом Неймана-Пірсона, який він визначає як «приймальні процедури». Фішер виділяє, що в той час як фіксовані рівні, такі як 5%, 2% і 1% зручні, точне р-значення може бути використане, а сила доказів може бути і буде переглянута в подальших експериментах. Противагу прийняття рішень вимагає чіткого рішення без необоротних дій, і процедура заснована на вартості помилок, які не застосовні до наукових досліджень. Незважаючи на всюдисущість випробувань і значень цей конкретний тест на статистичну значимість був підданий критиці за притаманні недоліки і потенційно неправильне тлумачення. Дані, отримані при порівняння р-значень з рівнем значущості, дають один або два результати: або відкидання нульової гіпотези, або нульова гіпотеза не може бути відкинута на тому рівні значущості (що не означає що нульова гіпотеза вірна).у Формулювання Фішера є роз'яснення: низьке р-значення позначає або, що нульова гіпотеза вірна і дуже мало імовірно сталася, або, що нульова гіпотеза не вірна. Люди інтерпретують р-значення багатьма невірними способами. Саме по собі р-значення не дозволяє міркувати про ймовірності гіпотез або ряду гіпотез з попереднім розподілом ймовірності між ними, в яких може бути використана Баєсова статистика. Використовують функцію правдоподібності для всіх можливих значень попереднього замість р-значення для нульової гіпотези. Р-значення відноситься тільки до єдиної гіпотези звано нульовий і не відноситься до яких-небудь інши гіпотез, таких як альтернативна у перевірці статистичних гіпотез Нейман-Пірса.


Див. також[ред.ред. код]

Вибірка[ред.ред. код]

Примітки[ред.ред. код]

  1. «ДОСТОВЕРНОСТЬ» ИЛИ «СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ»
  2. У сімдесятих Лаплас розглянув статистику майже півмільйона пологів. Статистичні дані показали надлишок хлопчиків порівняно з дівчатками. Він прийшов до висновку шляхом розрахунку р-значення, що надлишок був справжнім, але незбагненним.
  3. Звичайним і зручним для експерименту є взяті 5% як стандартний рівень значущості, в тому сенсі, що вони готові ігнорувати всі результати, які не в змозі досягти цих стандартів, і таким чином виключити з подальших дискусій більшу частину флуктуації, які випадково впровадили в результат експерименту.

Література[ред.ред. код]

Сигма Це незавершена стаття з математики.
Ви можете допомогти проекту, виправивши або дописавши її.