Похибки першого і другого роду

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Похибки першого роду (англ. type I errors α errors, false positives) і похибки другого роду (англ. type II errors β errors, false negatives) в математичній статистиці — це ключові поняття завдань перевірки статистичних гіпотез. Проте, дані поняття часто використовуються і в інших областях, коли йдеться про ухвалення «бінарного» рішення (так/ні) на основі якогось критерію (тесту, перевірки, вимірювання), який з деякою вірогідністю може давати помилковий результат.

Визначення[ред.ред. код]

Нехай дано вибірку \mathbf{X} = (X_1,\ldots,X_n)^{\top} з невідомого розподілу \mathbb{P}^{\mathbf{X}}, і поставлена бінарна задача перевірки статистичних гіпотез:

 \begin{matrix} H_0 \\ H_1, \end{matrix}

де H_0 — нульова гіпотеза, а H_1 — альтернативна гіпотеза. Припустимо, що заданий статистичний критерій

f:\mathbb{R}^n \to \{H_0,H_1\},

що зіставляє кожній реалізації вибірки \mathbf{X} = \mathbf{x} одну з гіпотез, які маємо. Тоді можливі чотири ситуації:

  1. Розподіл \mathbb{P}^{\mathbf{X}} вибірки \mathbf{X} відповідає гіпотезі H_0, і вона точно визначена статистичним критерієм, тобто f(\mathbf{x})= H_0.
  2. Розподіл \mathbb{P}^{\mathbf{X}} вибірки \mathbf{X} відповідає гіпотезі H_0, але вона невірно знехтувана статистичним критерієм, тобто f(\mathbf{x})= H_1.
  3. Розподіл \mathbb{P}^{\mathbf{X}} вибірки \mathbf{X} відповідає гіпотезі H_1, і вона точно визначена статистичним критерієм, тобто f(\mathbf{x})= H_1.
  4. Розподіл \mathbb{P}^{\mathbf{X}} вибірки \mathbf{X} відповідає гіпотезі H_1, але вона невірно знехтувана статистичним критерієм, тобто f(\mathbf{x})= H_0.

У другому і четвертому випадку говорять, що відбулася статистична помилка, і її називають похибкою першого і другого роду відповідно.

Вірна гіпотеза
H_0 H_1
Результат
застосування
критерію
H_0 H_0 вірно прийнята H_0 невірно принята
(Похибка другого роду)
H_1 H_0 невірно знехтувана
(Похибка

першого роду)

H_0 вірно знехтувана

Про суть похибок першого і другого роду[ред.ред. код]

Як видно з вищенаведеного визначення, похибки першого і другого роду є взаємно-симетричними, тобто якщо поміняти місцями гіпотези H_0 и H_1, то похибки першого роду перетворяться на похибки другого роду і навпаки. Проте, в більшості практичних ситуацій плутанини не відбувається, оскільки прийнято вважати, що нульова гіпотеза H_0 відповідає стану «за умовчанням» (природному, найбільш очікуваному стану речей) — наприклад, що обстежена людина здорова, або що проходить через рамку металлодетектора пасажир не має заборонених металевих предметів. Відповідно, альтернативна гіпотеза H_1 позначає протилежну ситуацію, яка зазвичай трактується як менш вірогідна, неординарна, така, що вимагає якої-небудь реакції.

З урахуванням цього похибку першого роду часто називають помилковою тривогою, помилковим спрацьовуванням — наприклад, аналіз крові показав наявність захворювання, хоча насправді людина здорова, або металлодетектор видав сигнал тривоги, спрацювавши на металеву пряжку ременя. Через можливості помилкових спрацьовувань не вдається повністю автоматизувати боротьбу з багатьма видами погроз. Як правило, вірогідність помилкового спрацьовування корелює з вірогідністю пропуску події (похибки другого роду). Тобто, чим чутливіша система, тим більше небезпечних подій вона детектує і, отже, запобігає. Але при підвищенні чутливості неминуче зростає і вірогідність помилкових спрацьовувань. Тому занадто чутливо (параноїдально) настроєна система захисту може звиродніти в свою протилежність і привести до того, що побічна шкода від неї перевищуватиме користь.

Відповідно, похибку другого роду іноді називають пропуском події — людина хвора, але аналіз крові цього не показав, або у пасажира є холодна зброя, але рамка металлодетектора його не виявила (наприклад, через те, що чутливість рамки відрегульована на виявлення тільки дуже масивних металевих предметів).

Ступінь чутливості системи захисту повинен бути компромісом між вірогідністю похибок першого і другого роду. Де саме знаходиться точка балансу, залежить від оцінки ризиків обох видів помилок.

Ймовірності похибок (рівень значущості і потужність)[ред.ред. код]

Ймовірність похибки першого роду при перевірці статистичних гіпотез називають рівнем значущості і зазвичай позначають грецькою буквою \alpha (звідси назва \alpha-errors).

Ймовірність похибки другого роду не має якоїсь особливої загальноприйнятої назви, на папері позначається грецькою буквою \beta (звідси \beta-errors). Проте з цією величиною тісно зв'язана інша, що має велике статистичне значення — потужність критерію. Вона обчислюється за формулою (1-\beta). Таким чином, чим вище потужність, тим менше вірогідність зробити похибку другого роду.

Обидві ці характеристики зазвичай обчислюються за допомогою так званої функції потужності критерію. Зокрема, ймовірність похибки першого роду є функцією потужності, обчисленою при нульовій гіпотезі. Для критеріїв, заснованих на вибірці фіксованого обсягу, ймовірність похибки другого роду є одиниця мінус функція потужності, обчислена в припущенні, що розподіл спостережень відповідає альтернативній гіпотезі. Для послідовних критеріїв це також вірно, якщо критерій зупиняється з ймовірністю одиниця (при даному розподілі з альтернативи).

У статистичних тестах зазвичай доводиться йти на компроміс між прийнятним рівнем похибок першого і другого роду. Часто для ухвалення рішення використовується порогове значення, яке може варіюватися з метою зробити тест строгішим або, навпаки, м'якшим. Цим пороговим значенням є рівень значущості, яким задаються при перевірці статистичних гіпотез. Наприклад, у разі металлодетектора підвищення чутливості приладу приведе до збільшення ризику похибки першого роду (помилкова тривога), а пониження чутливості — до збільшення ризику похибки другого роду (пропуск забороненого предмету).

Приклади використання[ред.ред. код]

Радіолокація[ред.ред. код]

У завданні раділокационного виявлення повітряних цілей, перш за все в системі ППО похибки першого і другого роду, з формулюванням "помилкова тривога" і "пропуск цілі" є одним з основних елементів як теорії, так і практики побудови радіолокаціонних станцій. Ймовірно, це перший приклад послідовного застосування статистичних методів в цілій технічній області.

Комп'ютери[ред.ред. код]

Поняття похибок першого і другого роду широко використовуються в області комп'ютерів і програмного забезпечення.

Комп'ютерна безпека[ред.ред. код]

Наявність слаких місць в обчислювальних системах призводить до того, що доводиться, з одного боку, вирішувати задачу збереження цілісності комп'ютерних даних, а з іншого боку — забезпечувати нормальний доступ легальних користувачів до цих даних (див. комп'ютерна безпека). Moulton (1983, с.125) відзначає, що в даному контексті можливі такі небажані ситуації:

  • коли авторизовані користувачі класифікуються як порушники (похибки першого роду)
  • коли порушники класифікуються як авторизовані користувачі (похибки другого роду)

Фільтрація спаму[ред.ред. код]

Похибка першого роду відбувається, коли механізм блокування/фільтрації спаму помилково класифікує легітимне email-повідомлення як спам і перешкоджає його нормальній доставці. Тоді як більшість «анти-спам» алгоритмів здатні блокувати/фільтрувати великий відсоток небажаних email-повідомлень, набагато важливішим завданням є мінімізувати число «помилкових тривог» (помилкових блокувань потрібних повідомлень).

Похибка другого роду відбувається, коли анти-спам система помилково пропускає небажане повідомлення, класифікуючи його як «не спам». Низький рівень таких помилок є індикатором ефективності анти-спам алгоритму.

Поки не вдалося створити антиспамовую систему без кореляції між ймовірністю похибок першого і другого роду. Ймовірність пропустити спам у сучасних систем коливається в межах від 1 % до 30 %. Ймовірність помилково відкинути легінтимне повідомлення — від 0,001 % до 3 %. Вибір системи і її настройок залежить від умов конкретного одержувача: для одних одержувачів ризик втратити 1 % хорошої пошти оцінюється як незначний, для інших же втрата навіть 0,1 % є неприпустимою.

Шкідливе програмне забезпечення[ред.ред. код]

Поняття похибки першого роду також використовується, коли антивірусне програмне забезпечення помилково класифікує нешкідливий файл як вірус. Невірне виявлення може бути викликане особливостями евристики, або неправильною сигнатурою вірусу в базі даних. Подібні проблеми можуть відбуватися також і з анти-троянськими і анти-шпигунсь програмами

Пошук в комп'ютерних базах даних[ред.ред. код]

При пошуку в базі даних, до похибок першого роду можна віднести документи, які видаються пошуком, не зважаючи на їх іррельовантность (невідповідність) пошуковому запиту. Помилкові спрацьовування характерні для повнотекстового пошуку, коли пошуковий алгоритм аналізує повні тексти всіх даних документів, що зберігаються в базі, і намагається знайти відповідності одному або декільком термінам, заданим користувачем в запиті.

Більшість помилкових спрацьовувань обумовлені складністю природних мов, багатозначністю слів: наприклад, «home» може позначати як «місце мешкання людини», так і «кореневу сторінку веб-сайту». Число подібних помилок може бути понижене за рахунок використання спеціального словника. Проте, це рішення відносне дороге, оскільки подібний словник і розмітка документів (індексування) повинні створюватися експертом.

Оптичне розпізнавання текстів (OCR)[ред.ред. код]

Різноманітні детектуючі алгоритми нерідко видають похибки першого роду. Програмне забезпечення оптичного розпізнавання текстів може розпізнати букву «a» за ситуації, коли насправді зображено декілька крапок, які використовуваний алгоритм розцінив як «a».

Огляд пасажирів і багажу[ред.ред. код]

Похибки першого роду регулярно зустрічаються щодня в комп'ютерних системах попереднього огляду пасажирів в аеропортах. Встановлені в них детектори призначені для запобігання проносу зброї на борт літака; проте, рівень чутливості в них часто настроюється настільки високо, що багато раз за день вони спрацьовують на незначні предмети, такі як ключі, пряжки ременів, монети, мобільні телефони, гати в підошвах взуття і т.п. (див. виявлення вибухових речовин, металлодетектори).

Таким чином, співвідношення числа помилкових тривог (ідентифікация благопристойного пасажира як терориста) до правильних спрацьовувань (виявлення дійсно заборонених предметів) дуже велике.

Біометрія[ред.ред. код]

Похибки першого і другого роду є великою проблемою в системах біометричного сканування, що використовують розпізнавання райдужної оболонки або сітківки ока, рис обличчя і т.д. Такі скануючі системи можуть помилково ототожнити когось з іншим, «відомим» системі людиною, інформація про яке зберігається в базі даних (наприклад, це може бути особа, що має право входу в систему, або підозрюваний злочинець і т. п.). Протилежною помилкою буде нездатність системи розпізнати легітимного зареєстрованого користувача, або пізнати підозрюваного в злочині.[1]

Масова медична діагностика (скринінг)[ред.ред. код]

В медичній практиці є суттєва відмінність між скринінгом і тестуванням:

  • Скринінг включає відносно дешеві тести, які проводяться для великої групи людей за відсутності яких-небудь клінічних ознак хвороби (наприклад мазок Папаніколау).
  • Тестування має на увазі набагато більш дорогі, часто інвазивні, процедури, які проводяться тільки для тих, у кого виявляються клінічні ознаки захворювання, і які в основному застосовуються для підтвердження передбачуваного діагнозу.

Наприклад, в більшості штатів в США обов'язкове проходження новонародженими процедури скринінгу на оксифенілкетонурію і гипотіреоз, крім інших природжених аномалій. Не зважаючи на високий рівень похибок першого роду, ці процедури скринінгу вважаються за доцільне, оскільки вони істотно збільшують ймовірність виявлення цих розладів на найранішій стадії.[2] Прості аналізи крові, що використовуються для скринінгу потенційних донорів на ВІЧ і гепатит, мають істотний рівень похибок першого роду; проте в арсеналі лікарів є набагато точніші (і, відповідно, дорожчі) тести для перевірки, чи дійсно людина інфікована яким-небудь з цих вірусів.

Можливо, найбільш широкі дискусії викликають похибки першого роду в процедурах скринінгу на рак грудей (мамографія). У США рівень похибок першого роду в мамограмах досягає 15 %, це найвищий показник у світі.[3] Найнижчий рівень спостерігається в Нідерландах, 1 %.[4]

Медичне тестування[ред.ред. код]

Похибки другого роду є істотною проблемою в медичному тестуванні. Вони дають пацієнтові і лікареві помилкове переконання, що захворювання відсутнє, тоді як насправді воно є. Це часто приводить до недоречного або неадекватного лікування. Типовим прикладом є довіра результатам кардіотестування при виявленні коронарного атеросклерозу, хоча відомо, що кардіотестування виявляє тільки ті затруднення кровотоку в коронарній артерії, які викликані стенозом.

Похибки другого роду викликають серйозні і важкі для розуміння проблеми, особливо коли шукана умова є широкорозповсюдженою. Якщо тест з 10%-ным рівнем похибок другого роду використовується для обстеження групи, де ймовірність «істинно-позитивних» випадків становить 70 %, то багато негативних результатів тесту виявляться помилковими.

Похибки першого роду також можуть викликати серйозні і важкі для розуміння проблеми. Це відбувається, коли шукана умова є рідкісною. Якщо рівень похибок першого роду в тесті складає один випадок на десять тисяч, але в тестованій групі зразків (або людей) ймовірність «істинно-позитивних» випадків складає в середньому один випадок на мільйон, то більшість позитивних результатів цього тесту будуть помилковими.[5]

Див. також[ред.ред. код]

Примітки[ред.ред. код]

  1. Цей приклад якраз характеризує випадок, коли класифікація помилок залежатиме від призначення системи: якщо біометричне сканування використовується для допуску співробітників (нульова гипотеза: «людина, що проходить сканування, дійсно є співробітником»), то помилкове ототожнення буде похибкою другого роду, а «непізнавання» — похибкою першого роду; якщо ж сканування використовується для впізнання злочинців (нульова гипотеза: «людина, що проходить сканування, не є злочинцем»), то помилкове ототожнення буде похибкою першого роду, а «непізнавання» — похибкою другого роду.
  2. Относительно скринінгу новонароджених, останні дослідження показали, що кількість похибок першого роду в 12 разів більша, ніж кількість вірних виявлень (Gambrill, 2006. [1])
  3. Одним з наслідків такого високого рівня похибок першого роду в США є те, що за довільний 10-річний період половина обстежуваних американських жінок отримують як мінімум одну хибну мамограму. Такі помилкові мамограми обходяться дорого, приводячи до щорічних витрат в 100 мільйонів доларів на подальше (непотрібне) лікування. Крім того, вони викликають зайву тривогу у жінок. В результаті високого рівня подібних похибок першого роду в США, приблизно у 90-95 % жінок, що отримали хоч би раз в житті позитивну мамограму, насправді захворювання відсутнє.
  4. Найнижчі рівні цих похибок спостерігаються в північній Європі, де маммографічні плівки прочитуються двічі, і для додаткового тестування встановлюється підвищене порогове значення (високий поріг знижує статистичну ефективність тесту).
  5. Ймовірність того, що видаваний тестом результат опиниться похибкою першого роду, може бути обчислена при допомозі теорема Байеса.