Проблема множинних порівнянь

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

У статистиці проблема множинних порівнянь або багаторазового тестування виникає, коли дослідник одночасно порівнює декілька груп за допомогою статистичного тесту.

Чим більше груп порівнюються між собою, тим вірогіднішими стають помилкові висновки статистичного тесту, а саме помилка першого типу[1].

Для розв'язання цієї проблеми було розроблено кілька статистичних методів, які базуються на зниженні порогу значущості (α). Таким чином, знижуючи кількість хибно відхилених нульових гіпотез.

Історія[ред. | ред. код]

У 1930-х роках Карло Еміліо Бонферроні розробив один з перших методів корекції для множинних порівнянь, відомий як метод Бонферроні.[2]

Проблема множинних порівнянь привернула підвищену увагу в 1950-х роках роботами таких статистиків, як Тьюкі та Шеффе. Протягом наступних десятиліть було розроблено багато методів для розв'язання цієї проблеми. У 1996 році в Тель-Авіві відбулася перша міжнародна конференція з методів множинного порівняння.[3]

Визначення[ред. | ред. код]

Під час проведення будь-якого статистичного тесту існує імовірність помилкового відкидання нульової гіпотези яка насправді є правдивою. Величина цієї імовірності () обирається дослідником заздалегідь, до проведення самого тесту, і визначається як рівень помилки першого роду. Найчастіше рівень альфа дорівнює 5 %. Тобто якщо дослідник проведе 100 тестів ми можемо очікувати що у 5 із них буде помилково відхилена нульова гіпотеза, за умови що вона є насправді вірною. Такі результати називаються хибно позитивними.

Тому у випадках, коли ми маємо багато груп або параметрів які ми хочемо попарно порівняти, 5 % результатів виявляться хибно позитивними. І чим більше попарних порівнянь, тим більша кількість результатів проведених тестів будуть помилковими. Тобто тест виявить значиму відмінність між двома групами коли її насправді не існує.

Неспроможність компенсувати множинні порівняння може мати серйозні наслідки в реальному світі, як показано на наведених нижче прикладах.

  1. Припустимо, що ми хочемо протестувати ефективність нової методики навчання учнів письма. Перша група буде навчатися за новою методикою, а друга — контрольна група — за старою методикою. Писемність учнів обох груп можна порівняти з точки зору граматики, орфографії, змісту тощо. У міру статистичного порівняння більшої кількості параметрів, збільшується імовірність того, що дві групи значимо відрізнятимуться за якимось з атрибутів, коли насправді значимої різниці не мало б бути.
  2. Припустімо, що ми розглядаємо ефективність нового медичного препарату з точки зору зменшення одного із симптомів захворювання. Перша група пацієнтів пройшла курс лікування новим препаратом, а друга, контрольна група, — старим. Як і у попередньому прикладі, ефективність обох препаратів можна порівняти багатьма параметрами. І чим більше симптомів ми порівнюватимемо, тим більш імовірно, що результати порівнянь якогось із них виявляться значимими. Тобто новий препарат виявиться кращим у порівнянні з вже існуючими препаратами з точки зору принаймні одного симптому.

В обох прикладах зі збільшенням кількості порівнянь росте імовірність того, що порівнювані групи відрізнятимуться принаймні за одним атрибутом. Росте імовірність того, що лише через велику кількість попарних порівнянь, якась пара буде статистично значимо відрізнятись. У цьому полягає суть помилки першого типу. Тому якщо інші дослідники будуть тестувати таку саму гіпотезу вони можуть і не отримати значимі результати на своїх даних. Тому такі дослідження є нереплікативними, якщо лише не була введена корекція для множинних порівнянь.

Проблема множинних порівнянь спостерігається також під час розрахунку довірчих інтервалів. Один 95 % довірчий інтервал містить справжнє істинне значення невідомого параметра в 95 % випадків. Тобто, якщо ми розрахуємо 100 довірчих інтервалів, то 5 із них не міститимуть невідомий параметр.

Приклад[ред. | ред. код]

При порівнянні двох груп, із параметром , імовірність правильного прийняття вірної нульової гіпотези дорівнює (. Порівнюючи три групи, ця імовірність дорівнює ()()(. Відповідно, імовірність хибного відхилення нульової гіпотези () вже дорівнює . Цей процес називається інфляцією альфа, тобто, збільшення імовірності неправильного відхилення нульової гіпотези яка насправді є вірною.

Таблиця нижче ілюструє як параметр альфа залежить від кількості порівнянь.

Кількість груп Кількість попарних порівнянь
2 2 0.05
3 3 0.098
4 6 0.143
5 10 0.185

Методи усунення проблеми[ред. | ред. код]

Найбільш консервативним методом є поправка Бонферроні згідно з якою, імовірність помилки першого типу, яка має величину , діляться на кількість попарних порівнянь : , що також веде до зниження сили тесту.

Наприклад, якщо ми маємо чотири групи які ми хочемо порівняти між собою, і параметр , то ми матимемо попарних порівнянь груп одна з одною.

Таким чином, p-значення, отримане при порівнянні кожної із шести пар, порівнюватиметься із і для того, щоб відхилити нульову гіпотезу р-значення має бути меншим за 0.0083.

Дещо менш консервативну поправку дає метод Холма–Бонферроні, який забезпечує більшу силу тесту, ніж проста корекція Бонферроні. Згідно з цим методом найнижче отримане р-значення () порівнюється із найнижчим та вищі р-значення () порівнюються із менш жорсткими критеріями:[4] .

Масштабне багаторазове тестування[ред. | ред. код]

Традиційні методи множинних порівнянь, розглянуті вище, використовуються у дисперсійному аналізі, для коригування порівнянь невеликої кількості груп. Для широкомасштабного множинного тестування, під час якого виконується більша кількість тестів, існують інші методи. Наприклад, у геноміці, використовуючи такі технології, як мікроматриці, можна виміряти рівні експресії десятків тисяч генів, а також генотипи для мільйонів генетичних маркерів. Зокрема, у сфері досліджень генетичних зв'язків існувала серйозна проблема з нереплікацією — результат був статистично значущим в одному дослідженні, але його не вдалося відтворити в наступному дослідженні. Таке невідтворення може мати багато причин, але вважається, що неврахування наслідків багаторазових порівнянь є однією з причин.[5] Прогрес у вимірюванні та інформаційних технологіях значно полегшив збіг великих масивів даних для аналізу, що збільшує кількість гіпотез які треба тестувати. У цій ситуації можна очікувати дуже високі показники хибнопозитивних результатів якщо не корегувати результати методами для множинних порівнянь.

Існує практика, коли множинні порівняння навмисно не корегуються аби збільшити шанси отримати значимі результати дослідження — що є важливим для багатьох дослідників та їх праць. Але такі некореговані значимі результати можуть бути отримані через помилку першого типу статистичного тесту. Така проблема має назву «p-hacking».[6][7]

Ключові поняття
Загальні методи коригування альфа для множинних порівнянь

Список літератури[ред. | ред. код]

  1. 6.1: Multiple Comparisons. Statistics LibreTexts (англ.). 27 червня 2017. Процитовано 28 жовтня 2023.
  2. Bonferroni, Carlo E. (1936). Teoria statistica delle classi e calcolo delle probabilità (італ.). Seeber.
  3. Home. mcp-conference.org.
  4. Aickin, M; Gensler, H (May 1996). Adjusting for multiple testing when reporting research results: the Bonferroni vs Holm methods. Am J Public Health. 86 (5): 726—728. doi:10.2105/ajph.86.5.726. PMC 1380484. PMID 8629727.
  5. Qu, Hui-Qi; Tien, Matthew; Polychronakos, Constantin (1 жовтня 2010). Statistical significance in genetic association studies. Clinical and Investigative Medicine. 33 (5): E266—E270. ISSN 0147-958X. PMC 3270946. PMID 20926032.
  6. Young, S. S., Karr, A. (2011). Deming, data and observational studies (PDF). Significance. 8 (3): 116—120. doi:10.1111/j.1740-9713.2011.00506.x.
  7. Smith, G. D., Shah, E. (2002). Data dredging, bias, or confounding. BMJ. 325 (7378): 1437—1438. doi:10.1136/bmj.325.7378.1437. PMC 1124898. PMID 12493654.

Інші джерела[ред. | ред. код]