Перевірка гіпотез, заснованих на відомих даних
У статистиці перевірка гіпотези, заснованої на відомих даних, на тому самому наборі даних, швидше за все, буде успішною, навіть якщо вона не відповідає дійсності. Це пов’язано із замкненим колом міркування (подвійним зануренням): щось здається вірним у обмеженому наборі даних; тому ми припускаємо, що це взагалі відповідає дійсності; тому ми (помилково) перевіряємо це на тому самому обмеженому наборі даних, що, імовірно, підтверджує, що це правда. Висування гіпотез на основі вже відомих даних, за відсутності тестування на нових даних, називається post hoc теоретизуванням (від латинського post hoc, "після цього").
Правильною процедурою є перевірка будь-якої гіпотези на наборі даних, який не використовувався для формування гіпотези.
Припустимо, п’ятдесят різних дослідників проводять клінічні випробування, щоб перевірити, чи ефективний вітамін Х при лікуванні раку. Переважна більшість із них не знаходять суттєвих відмінностей між вимірами, проведеними у пацієнтів, які приймали вітамін Х, і тих, хто приймав плацебо . Однак через статистичний шум одне дослідження виявляє значну кореляцію між прийомом вітаміну Х та виліковуванням від раку.
Беручи до уваги всі 50 досліджень в цілому, єдиним висновком, який можна зробити з великою впевненістю, є те, що досі не залишається жодних доказів того, що вітамін Х впливає на лікування раку. Однак, хтось, хто намагається досягти більшого розголосу для одного неординарного дослідження, міг би спробувати створити гіпотезу, запропоновану наявними даними, знайшовши якийсь унікальний для цього дослідження аспект і стверджуючи, що цей аспект є ключем до відмінності його результатів. Припустимо, наприклад, що це дослідження було єдиним, проведеним у Данії. Можна стверджувати, що цей набір із 50 досліджень показує, що вітамін Х є більш ефективним у Данії, ніж деінде. Однак, хоча дані не суперечать цій гіпотезі, вони також не підтримують її у повній мірі. Тільки додаткові дослідження (одне або декілька) могли б підтвердити цю нову гіпотезу.
Тестування гіпотези, заснованої на відомих даних, може дуже легко призвести до хибнопозитивного результату (помилки першого типу). Якщо шукати довго і в достатньо різних місцях, з часом можна знайти дані, що підтверджують будь-яку гіпотезу. Проте ці позитивні дані самі по собі не є доказами правильності гіпотези. Відкинуті негативні результати тестування не менш важливі, оскільки вони дають уявлення про те, наскільки часто позитивні результати порівняні з випадковістю. Запуск експерименту, уявлення закономірності в даних, висунення гіпотези з цієї закономірності, а потім використання тих самих експериментальних даних як доказів для підтвердження нової гіпотези є надзвичайно підозрілим, оскільки дані всіх інших експериментів, завершених або потенційних, по суті були "відкинуті", і було зроблено вибір розглянути лише дані експерименти, на яких було засновано нову гіпотезу.
Велика кількість тестувань перевірки гіпотези, як описано вище, сильно завищує ймовірність помилки першого типу, оскільки всі дані, крім найбільш сприятливих для гіпотези, відкидаються. Це ризик не тільки для перевірки гіпотез, але й для всіх статистичних висновувань, оскільки часто буває проблематично точно описати процес пошуку та відкидання даних. Іншими словами, хочеться зберегти всі дані (незалежно від того, чи схильні вони підтримувати чи спростовувати гіпотезу) з "хороших тестів", але часом важко зрозуміти, що таке "хороший тест". Це особлива проблема в статистичному моделюванні, коли багато різних моделей відхиляються методом спроб і помилок перед публікацією результату (див. Також перенавчання, упередження публікації ).
Ця помилка особливо поширена при добуванні даних та машинному навчанні. Вона також часто трапляється в академічному видавництві, де, як правило, приймаються лише статті з позитивними, а не негативними результатами, що призводить до ефекту, відомого як упередження публікації.
Усі стратегії надійного тестування гіпотез, заснованих на відомих даних, передбачають включення більш широкого спектру тестів для спроби підтвердити або спростувати нову гіпотезу. До них належать:
- Збір підтверджувальних зразків
- Перехресне затверджування
- Методи корекції множинних порівнянь
- Імітаційні дослідження, що включають адекватне представлення фактично задіяного багаторазового тестування
Метод Шеффе у проблемі множинних порівнянь є найбільш відомим засобом при дисперсійному аналізі. Цей метод, призначений для перевірки гіпотез, заснованих на даних, дозволяє уникати помилок, описаних вище.
- Корекція Бонферроні
- Аналіз даних
- Просіювання даних
- Розвідувальний аналіз
- Post hoc аналіз
- Прогностична аналітика
- Логічна хиба техаського стрільця
- Помилки першого і другого роду
- Незручна наука