p-значення

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

При перевірці статистичних гіпотез, p-значення або значення вірогідності або асимптотична значимість — вірогідність заданої статистичної моделі для якої, при умові що нульова гіпотеза є істиною, статистичні суми (наприклад різниця середніх значень вибірки при порівнянні двох груп) будуть однакові або матимуть більші значення ніж для фактично отриманих результатів[en].[1] Використання p-значень при перевірці статистичних гіпотез є загальним для багатьох областей дослідження[2] таких як фізика, економіка, фінанси, політологія, психологія,[3] біологія, кримінологія, і соціологія.[4] Їх неправильне використання було причиною багатьох суперечливих ситуацій.

Основні поняття[ред. | ред. код]

В статистиці, кожна гіпотеза щодо невідомого розподілу випадкової величини називається статистичною гіпотезою. Якщо ми стверджуємо про одну гіпотезу і нашою метою є статистична перевірка чи є ця гіпотеза не хибною, але не маємо наміру, одночасно з тим, досліджувати іншу гіпотезу, тоді така перевірка називається перевіркою значимості. Статистична гіпотеза, яка стосується лише числових значень невідомих параметрів певного розподілу називається параметричною гіпотезою. Методи перевірки статистичних гіпотез називаються статистичними тестами. Тести, що перевіряють параметричні гіпотези називаються параметричними тестами.[5]

p-значення застосовується у контексті перевірки нульової гіпотези для надання кількісної оцінки поняттю статистичної значущості доведення. Зауважте що статистична значущість результату не означає те, що результат так само має наукову значимість. Доведення нульової гіпотези це метод доведення до абсурду — аргументування, що прийняте у статистиці. По суті, твердження вважається правильним, якщо його протилежне твердження є неймовірним.

Таким чином, єдиною гіпотезою яку необхідно визначити при такій перевірці є протилежна гіпотеза, що називається нульовою гіпотезою (тобто гіпотеза, яка вважається не правдивою). Результат вважатиметься статистично значимим якщо нульову гіпотезу можна перевірено спростувати. Тобто іншими словами, при методі доведення до абсурду, для статистично значимого результату нульова гіпотеза матиме дуже малу ймовірність того, що вона є правдивою. Спростування нульової гіпотези означає, що правильна гіпотеза полягає в логічному доповнені до нульової гіпотези. Однак, якщо існує хоча б одна альтернатива нульовій гіпотезі, її спростування не може точно означати яка з інших альтернативних гіпотез є правдивою.

Якщо є випадковою величиною, що представляє собою дані спостереження і  — статистична гіпотеза, що розглядається, тоді нотація статистичної значимості можна інтуїтивно визначити за допомогою умовної імовірності , яка задає ймовірність спостереження за умови, що гіпотеза припускається правдивою. Однак, якщо є неперервною випадковою величиною і спостерігається її реалізація , У такому застосуванні, інтуїтивне визначення є не адекватним і його необхідно змінити так, щоб воно відповідало неперервним випадковим величинам.

Визначення та інтерпретація[ред. | ред. код]

Приклад розрахунку p-значення. Вертикальній координатній шкалі відповідає густині імовірності кожного результату, розрахованого відповідно до нульової гіпотези. p-значення це площа під кривою, що знаходиться за точкою даних спостереження.

p-значення визначають як імовірність, за умови нульової гіпотези, тут позначеної як (але досить часто її позначають як , що є протилежним до , що іноді використовують для позначення альтернативної гіпотези), отримати результат рівний або більш екстремальний ніж той, що фактично спостерігався. В залежності від того як це розглядати, «більш екстремальний ніж той, що фактично спостерігався», може означати (подія із правого хвоста) або (подія із лівого хвоста) або «менший» із та (подія із обох хвостів). Таким чином, p-значення визначається як

  • для випадку події із правого хвоста,
  • для випадку події із лівого хвоста,
  • для обох хвостів.

Чим меншим є p-значення, тим вищою буде значимість, оскільки це говорить досліднику про те, що досліджувана гіпотеза не може адекватно пояснити спостереження. Нульова гіпотеза відкидається якщо будь-яка із цих імовірностей менша або дорівнює малій величині, що за відомо визначена як порогове значення , яка називається рівнем статистичної значущості. На відміну від p-значення, рівень не отримують із даних спостереження і він не залежить від даної гіпотези; значення визначає дослідник перед вивченням статистичних даних. Надавати значення параметру не обов'язково. Як правило, типовими можливим значенням для можуть бути 0.05, 0.01, 0.005, або 0.001.

Оскільки значення , що відповідає події із лівого чи правого хвоста є випадковою величиною, це дозволяє розглядати p-значення як функцію від і як випадкову величину саму по собі. Відповідно до нульової гіпотези, p-значення визначено рівномірно в інтервалі , із припущення, що є неперервною. Таким чином, p-значення не є фіксованим. Це означає, що p-значенню не можна інтерпретувати як підрахунок частоти, оскільки імовірність повинна бути фіксована для здійснення підрахунку частоти. Іншими словами, якщо один і той самий тест повторити незалежним чином висуваючи ту саму загальну нульову гіпотезу, він призведе до іншого p-значення для кожного повтору. Тим не менш, ці різні p-значення можна об'єднати за допомогою Комбінованого ймовірнісного тесту Фішера[en].

Див. також[ред. | ред. код]

Статистична значущість

Посилання[ред. | ред. код]

Примітки[ред. | ред. код]

  1. Wasserstein, Ronald L.; Lazar, Nicole A. (7 March 2016). The ASA's Statement on p-Values: Context, Process, and Purpose. The American Statistician 70 (2): 129–133. doi:10.1080/00031305.2016.1154108. Процитовано 30 October 2016. [недоступне посилання з лютий 2019]
  2. Bhattacharya, Bhaskar; Habtzghi, DeSale (2002). Median of the p value under the alternative hypothesis. The American Statistician (American Statistical Association) 56 (3): 202–6. doi:10.1198/000313002146. Процитовано 19 February 2016. 
  3. Wetzels, R.; Matzke, D.; Lee, M. D.; Rouder, J. N.; Iverson, G. J.; Wagenmakers, E. -J. (2011). Statistical Evidence in Experimental Psychology: An Empirical Comparison Using 855 t Tests. Perspectives on Psychological Science 6 (3): 291–298. doi:10.1177/1745691611406923. 
  4. Babbie, E. (2007). The practice of social research 11th ed. Thomson Wadsworth: Belmont, California.
  5. Fisz, Marek (1963). Significance Testing. Probability theory and mathematical statistics (вид. 3). New York: John Wiley and Sons, Inc. с. 425.