Омана базового відсотка

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Омана базового відсотка, інші назви ігнорування базового відсотка або упередження базового відсотка, — це помилка у мисленні: коли розум стикається з пов'язаними інформацією про базовий відсоток (тобто загальною інформацією) та специфічною інформацією (інформацією, що стосується лише певного випадку), розум має схильність ігнорувати перше і фокусуватися на другому.[1]

Приклад 1[ред. | ред. код]

Джон носить готичний одяг, має довге чорне волосся, та слухає дез-метал. Яка ймовірність, що він — християнин, і яка ймовірність що він — сатаніст?

Якщо людям поставлять це запитання, вони швидше за все недооцінять ймовірність того, що він християнин, та переоцінять ймовірність того, що він сатаніст. Це тому, що вони проігнорують, що базовий відсоток християнства (у світі сповідують бл. 2 млрд.людей) значно більше базового відсотка сатанізму (оцінюється у декілька тисяч).[2]

Приклад 2[ред. | ред. код]

Поліцейські оснащені індикаторними трубками, що хибно визначають ступінь сп'яніння у 5 % тестів (тобто вказують на тверезу людину як на п'яну). Однак дійсно п'яну людину вони завжди визначають правильно. Один з 1000 водіїв за кермом п'яний. Припустіть, що поліцейський випадковим чином зупиняє машину і пропонує водію пройти тест. Тест показує, що водій п'яний. Припустіть також, що нічого більше про водія не відома (зокрема щодо інших ознак сп'яніння). Яка ймовірність, що водій дійсно п'яний?

Більшість відповість, що близько 0,95; але правильна ймовірність лише бл. 0,02.

Для отримання правильної відповіді слід використовувати теорему Баєса. Мету визначити ймовірність того, що водій п'яний, якщо на це вказала індикаторна трубка, можна виразити наступним чином:

де «D» означає, що індикаторна трубка показала, що водій п'яний, а d — що водій дійсно п'яний. Теорема Баєса каже, що

У першому параграфі ми отримали такі дані:

,

де s — водій насправді тверезий. Як видно з формули, теорема Баєса потребує p(D), значення якого можна отримати з попередніх значень з використанням наступного

в результаті

Підставивши ці цифри у теорему Баєса, отримаємо

Більш інтуїтивне пояснення: в середньому на кожні 1000 протестованих водіїв,

  • 1 водій є п'яним, і з ймовірністю 100 % трубка покаже для нього вірний позитивний результат тесту, і це один вірний позитивний результат тесту;
  • 999 водіїв не п'яні, і серед них 5 % отримають хибний позитивний результат тесту, а це 49,95 хибних позитивних результатів тесту.

Таким чином ймовірність, що один з 1 + 49,95 = 50,95 водіїв, які отримали позитивний результат тесту, є п'яним дорівнює .

Правильність результату, однак, залежить на правильності припущення, що поліція зупинила справді випадкового водія, а не через погане водіння. Якщо ж зупинка водія відбулася з цієї або іншої не довільної причини, підрахунок ймовірності повинен враховувати ймовірність того, що п'яний водій їде компетентно (без порушень) і не п'яний водій їде компетентно.

Приклад 3[ред. | ред. код]

У місті з мільйонним населенням є 100 терористів та 999 900 не терористів. Для спрощення прикладу, припускається, що всі люди в місті є його населенням. Тому, базовий відсоток того, що випадково вибраний мешканець є терористом, дорівнює 0,0001, а базовий відсоток того, що він не терорист, — 0,9999. Намагаючись схопити терористів, місто встановлює систему тривоги з камерами спостереження та програмним забезпеченням автоматичного розпізнавання облич.

Програмне забезпечення має дві можливі помилки з ймовірністю 1 % кожна:

  • Негативна помилка: Коли камера бачить терориста, сигнал тривоги пролунає у 99 % випадків, та промовчить у 1 % випадків.
  • Позитивна помилка: Коли камера бачить не-терориста, сигнал тривоги не пролунає у 99 % випадків, та задзвенить у 1 % випадків..

Тепер уявіть, що сигнал тривоги пролунав щодо випадкового мешканця. Які шанси, що він — терорист? Іншими словами, яке значення P(T|B), ймовірності, що дзвінок спрацював на терориста? Ті, хто піддаються омані базового відсотка, скажуть, що воно дорівнює 99 %. Хоча таке припущення здається слушним, насправді воно погане, а розрахунки нижче покажуть, що ймовірність того, що випадкова людина, на якій спрацював сигнал тривоги, є терористом, насправді близько 1 %, а не 99 %.

Омана виникає внаслідок сплутування природи двох різних відсотків помилки. Кількість випадків відсутності дзвінка на 100 терористів та кількість не-терористів на 100 дзвінків є непов'язаними кількостями. Одне необов'язково дорівнює іншому, і вони навіть не повинні бути майже рівними. Для ілюстрації цього, подумайте, що трапиться, якщо аналогічна система буде встановлена в іншому місті, де терористів не має зовсім. Як і у першому місті, тривога спрацює один раз на кожні 100 жителів міста, які не є терористами, однак на відміну першому місті, тривога ніколи не спрацює для терориста. Таким чином, у 100 % випадків тривога звучить для не-терориста, а негативну помилку навіть неможливо розрахувати.

Уявіть, що все населення міста в 1 млн пройде перед камерою. Для бл.99 зі 100 терористів спрацює тривога, але так само вона спрацює для бл. 9 999 людей з 999 900 не-терористів. Отже, тривога зазвучить для бл. 10 098 людей, з яких лише бл. 99 будуть терористами. Таким чином, ймовірність, що людина, для якої спрацювала тривога, є терористом 99 з 10 098, що менше 1 %, та набагато нижче початкової здогадки в 99 %.

У цьому випадку омана базового відсотка така сильна тому, що не-терористів набагато більше ніж терористів.

Дослідження у психології[ред. | ред. код]

Згідно експериментів, люди надають перевагу виокремлюючій інформації поряд над загальною інформацією, коли перша доступна.[3][4][5]

У деяких експериментах, студентів просили оцінити середній оцінний бал гіпотетичних студентів. Коли їм надали відповідну статистику про розподіл середнього оцінного балу, студенти мають тенденцію ігнорувати цю статистику, якщо їм надали описову інформацію про конкретного студента, навіть якщо ця нова інформація не має або має дуже малий стосунок до успіхів у навчанні цього студента.[4] Це відкриття було використано для обґрунтування, що співбесіда не є необхідною для вступу до вишів, оскільки інтерв'юери не можуть краще обрати успішних кандидатів ніж звичайна статистика.

Психологи Деніел Канеман та Амос Тверські намагалися пояснити ці відкриття через просте правило або «евристику», що має назву репрезентативність. Вони доводили, що багато суджень, які стосуються достовірності або причини або наслідку, засновані на тому, наскільки одна річ репрезентує іншу або категорію.[4] Канеман вважає ігнорування базового відсотка специфічною формою ігнорування розширення.[6] Річард Нісбет доводив, що деякі упередження атрибуції, наприклад фундаментальна помилка атрибуції є прикладами омани базового відсотка: люди недостатньо використовують «консенсусну інформацію» («базовий відсоток») про те, як інші поводилися в аналогічних ситуаціях, а замість того, надають перевагу простішим диспозиційним атрибуціям.[7]

У психології триває серйозна суперечка щодо умов, за яких люди оцінюють або не оцінюють базовий відсоток.[8][9] Дослідники програм з вивчення евристики та упереджень наголошують, що емпіричні свідчення показують, що люди мають тенденцію ігнорувати базовий відсоток та роботи висновки, які порушують певні норми ймовірнісного судження, наприклад теорему Баєса. За результатами цього напрямку досліджень робиться висновок, що ймовірнісне мислення людини має фундаментальні недоліки та схильне до помилок.[10] Інші вчені наголошують на зв'язку між когнітивними процесами та форматами інформації, доводячи, що такі висновки в цілому не обґрунтовані.[11][12]

Розгляньте знову Приклад 2. Необхідний висновок — це оцінка ймовірності, що (випадково обраний) водій є п'яним, за умов, що індикаторна трубка дає позитивний результат. Формально, ця ймовірність може бути підрахована через теорему Баєса, як показано вище. Однак, існують різні шляхи до надання необхідної інформації. Наприклад, розгляньте наступний, формально еквівалентний варіант проблеми:

 1 з 1000 водіїв п'яний на дорозі. Індикаторні трубки ніколи не помиляються вказати на дійсно п'яного водія. Для 50 з 999 водіїв, індикаторна трубка хибно показує, що вони п'яні. Припустіть, що поліцейський випадково зупиняє водія і наполягає на тесті індикаторною трубкою. Вона вказує, що водій п'яний. Припустимо, що більше нічого Вам про водія не відомо. Яка ймовірність, що водій дійсно п'яний?

У цьому випадку, необхідна числова інформація — p(d), p(D|d), p(D|s) — надана у вигляді натуральної частоти по відношенню до певного класу порівняння (дивись проблема класу порівняння). Емпіричні дослідження показують, що людські припущення більше відповідають правилу Баєс, коли інформація подана саме таким чином, який дозволяє як звичайним людям[12], так і експертам, подолати оману базового відсотка.[13] Як наслідок, такі організації, як «Кохранівська співпраця» рекомендують використовувати цей формат для передачі статистики у сфері охорони здоров'я.[14] Навчити людей переводити проблеми Баєсівського судження у формат натуральної частоти є більш ефективним, ніж просто навчити їх підставляти ймовірності (або відсотки) в теорему Баєса.[15] Дослідження також показали, що графічне зображення натуральних частот (наприклад, у вигляді масивів значків) допомагає людям робити кращі припущення.[15][16][17]

Чому такі формати натуральних частот допомагають? Одна з важливих причин — таким інформаційний формат породжує необхідне припущення, бо він спрощує необхідні підрахунки. Це можна продемонструвати наступним шляхом підрахунку необхідної ймовірності p(d|D):

де N(d ∩ D) означає кількість водіїв, які п'яні і отримують позитивний тест індикаторної трубки, а N(D) — загальна кількість випадків позитивних тестів індикаторної трубки. Еквівалентність цього рівняння до рівняння вище витікає з аксіоми теорії ймовірності, за якою N(d ∩ D) = p (D|d) × p (d). Найважливіше, що хоча це рівняння формально еквівалентне правилу Баєса, психологічно воно не еквівалентно. Використання натуральних частот спрощує припущення, бо необхідні математичні операції можуть бути здійснені з натуральними числами, замість нормалізованих частин (тобто, ймовірностей), також, це робить високу кількість хибних результатів більш очевидною, а крім того, натуральні частоти демонструють «структуру вкладеного набору».[18][19]

Важливо зазначити, що Баєсівське судження відбувається не при будь-якому форматі частоти.[19][20] Натуральні частоти — це та інформація про частоту, яка виникає при натуральному відборі,[21] який зберігає інформацію про базовий відсоток (зокрема, кількість п'яних водіїв при випадковій вибірці водіїв). Це відрізняється від систематичного відбору, при якому базовий відсоток є наперед зафіксованим (наприклад, в науковому експерименті). В останньому випадку, неможливо зробити припущення щодо ймовірності p (d|позитивний тест) внаслідок порівняння кількості п'яних водіїв, щодо яких трубка дала позитивний результат, та загальної кількості водіїв, щодо кого трубка показала позитивний результат, оскільки базовий відсоток не був збережений і для вирішення повинен бути спеціально доданий з використанням теореми Баєса.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. Logical Fallacy: The Base Rate Fallacy. Fallacyfiles.org. Архів оригіналу за 24 березня 2019. Процитовано 15 червня 2013.
  2. B.A. Robinson (March 2006). Religious Satanism, 16th century Satanism, Satanic Dabbling, etc. Ontario Consultants on Religious Tolerance. Архів оригіналу за 28 квітня 2019. Процитовано 24 березня 2013.
  3. Bar-Hillel, Maya (1980). The base-rate fallacy in probability judgments. Acta Psychologica. 44: 211—233. doi:10.1016/0001-6918(80)90046-3.
  4. а б в Kahneman, Daniel; Amos Tversky (1973). On the psychology of prediction. Psychological Review. 80: 237—251. doi:10.1037/h0034747.
  5. Kahneman, Daniel; Amos Tversky (1985). Evidential impact of base rates. У Daniel Kahneman, Paul Slovic & Amos Tversky (Eds.) (ред.). Judgment under uncertainty: Heuristics and biases. с. 153—160.
  6. Kahneman, Daniel (2000). Evaluation by moments, past and future. У Daniel Kahneman and Amos Tversky (Eds.) (ред.). Choices, Values and Frames.
  7. Nisbett, Richard E.; E. Borgida, R. Crandall & H. Reed (1976). Popular induction: Information is not always informative. У J. S. Carroll & J. W. Payne (Eds.) (ред.). Cognition and social behavior. Т. 2. с. 227—236.
  8. DOI:10.1017/S0140525X00041157
    Нема шаблону {{Cite doi/10.1017/S0140525X00041157}}.заповнити вручну
  9. DOI:10.1017/S0140525X07001653
    Нема шаблону {{Cite doi/10.1017/S0140525X07001653}}.заповнити вручну
  10. DOI:10.1126/science.185.4157.1124
    Нема шаблону {{Cite doi/10.1126/science.185.4157.1124}}.заповнити вручну
  11. Cosmides, Leda; John Tooby (1996). Are humans good intuitive statisticians after all? Rethinking some conclusions of the literature on judgment under uncertainty. Cognition. 58: 1—73. doi:10.1016/0010-0277(95)00664-8.
  12. а б DOI:10.1037/0033-295X.102.4.684
    Нема шаблону {{Cite doi/10.1037/0033-295X.102.4.684}}.заповнити вручну
  13. DOI:10.1126/science.290.5500.2261
    Нема шаблону {{Cite doi/10.1126/science.290.5500.2261}}.заповнити вручну
  14. DOI:10.1002/14651858.CD006776.pub2
    Нема шаблону {{Cite doi/10.1002/14651858.CD006776.pub2}}.заповнити вручну
  15. а б DOI:10.1037/0096-3445.130.3.380
    Нема шаблону {{Cite doi/10.1037/0096-3445.130.3.380}}.заповнити вручну
  16. DOI:10.1002/acp.1460
    Нема шаблону {{Cite doi/10.1002/acp.1460}}.заповнити вручну
  17. DOI:10.1136/bmj.324.7341.827
    Нема шаблону {{Cite doi/10.1136/bmj.324.7341.827}}.заповнити вручну
  18. DOI:10.1016/S0010-0277(00)00133-5
    Нема шаблону {{Cite doi/10.1016/S0010-0277(00)00133-5}}.заповнити вручну
  19. а б DOI:10.1016/S0010-0277(02)00050-1
    Нема шаблону {{Cite doi/10.1016/S0010-0277(02)00050-1}}.заповнити вручну
  20. DOI:10.1037/0033-295X.106.2.425
    Нема шаблону {{Cite doi/10.1037/0033-295X.106.2.425}}.заповнити вручну
  21. DOI:10.1007/978-1-4612-4308-3_27
    Нема шаблону {{Cite doi/10.1007/978-1-4612-4308-3_27}}.заповнити вручну

Посилання[ред. | ред. код]