Хибне використання статистики

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Хибне використання статистики відбувається, коли статистичний аргумент стверджує неправду. Статистика, якщо її використовувати в хибний спосіб, може змусити випадкового спостерігача повірити в щось інше, ніж те, що показують дані. У деяких випадках неправильне використання може бути випадковим. В інших — це цілеспрямовано та з метою наживи зловмисника. Якщо залучене статистичне судження хибне або неправильно застосоване, це є статистичною помилкою.

Використати статистику помилково дуже легко. Професійних вчених, навіть математиків і професійних статистиків, можна обдурити навіть якимись простими методами, навіть якщо вони ретельно все перевіряють. Відомо, що вчені обманюють себе статистикою через брак знань теорії ймовірностей і брак стандартизації своїх тестів.

Визначення, обмеження та контекст[ред. | ред. код]

Одне з визначень, яке можна використовувати, таке: «Зловживання статистичними даними: використання чисел таким чином, що або навмисно, або через незнання чи необережність, висновки є невиправданими або неправильними». [1] «Цифри» містять оманливу графіку, про яку йдеться в інших місцях. Цей термін рідко зустрічається в статистичних текстах, і невідомо жодного авторитетного визначення. Це узагальнення брехні за допомогою статистики, яка була багато описана на прикладах статистиків 60 років тому.

Визначення стикається з деякими проблемами (деякі вирішуються в джерелі):[2]

  1. Статистика зазвичай виробляє ймовірності; висновки тимчасові
  2. Попередні висновки містять похибки та рівень похибок. Зазвичай 5 % попередніх висновків перевірки значущості є помилковими
  3. Статистики не зовсім згодні щодо ідеальних методів
  4. Статистичні методи базуються на припущеннях, які рідко повністю виконуються
  5. Збір даних зазвичай обмежується етичними, практичними та фінансовими обмеженнями.

Як брехати за допомогою статистики визнає, що статистика може мати різні форми. Про те, чи показує статистика, що продукт «легкий і економічний» чи «неміцний і дешевий», можна говорити незалежно від цифр. Дехто заперечує проти заміни статистичною коректністю морального лідерства (наприклад) як цілі. Покласти провину за зловживання часто важко, оскільки вчені, соціологи, статистики та репортери часто є найманими працівниками або консультантами.

Підступне зловживання статистикою завершується слухачем/спостерігачем/аудиторією/присяжним. Постачальник надає «статистику» у вигляді чисел або графіки (або фотографій до/після), що дозволяє споживачеві зробити (можливо, невиправдані чи неправильні) висновки. Поганий стан статистичної грамотності населення[en] та нестатистична природа людської інтуїції дозволяють вводити в оману без явного отримання помилкових висновків.

Історик перерахував понад 100 помилок у дюжині категорій, включаючи помилки узагальнення та помилки причинно-наслідкових зв'язків.[3] Деякі з помилок є явно або потенційно статистичними, включаючи помилки вибірки, статистичну нісенітницю, статистичну ймовірність, хибну екстраполяцію, хибну інтерполяцію та підступне узагальнення. Усі технічні/математичні проблеми застосування ймовірності вписуються в єдину зазначену помилку статистичної ймовірності. Багато помилок можуть бути пов'язані зі статистичним аналізом, допускаючи можливість помилкового висновку, що випливає з бездоганного статистичного аналізу.

Прикладом використання статистики є аналіз медичних досліджень. Процес включає[4][5] планування експерименту, проведення експерименту, аналіз даних, складання логічних висновків і презентацію/звітування. Звіт підсумовано популярною пресою та рекламодавцями. Хибне використання статистики може бути результатом проблем на будь-якому етапі процесу. Статистичні стандарти, які ідеально застосовуються до наукового звіту, значно відрізняються від стандартів, які застосовуються до популярної преси та рекламодавців; однак існують випадки, коли реклама маскується під науку[en].

Прості причини[ред. | ред. код]

Багато хибних використань статистики відбувається тому, що

  • Джерело є фахівцем у певній галузі, а не експертом зі статистики.[6] Джерело може неправильно використовувати метод або неправильно інтерпретувати результат.
  • Джерело є статистиком, а не фахівцем.[7] Експерт повинен знати, коли порівнювані числа описують різні речі. Цифри змінюються, як не змінюється реальність, коли змінюються юридичні визначення чи політичні кордони.
  • Предмет, який вивчається, не є чітко визначеним [8], або деякі його аспекти легко визначити кількісно, тоді як інші важко визначити, або не існує відомого методу кількісного визначення (див. помилку Макнамари). Наприклад:
    • Незважаючи на те, що тести на IQ є чисельними, важко визначити, що вони вимірюють, оскільки інтелект — це невловиме поняття.
    • «Впливовість» видання має ту саму проблему.[9] Наукові статті та наукові журнали часто оцінюють за «впливовістю», яку кількісно визначається як кількість цитувань у пізніших публікацій. Математики та статистики дійшли висновку, що показник впливовості (хоч і відносно об'єктивний) не є дуже значущим показником. «Єдина опора на дані цитування забезпечують в кращому випадку неповне і часто поверхове розуміння досліждення. Цифри за своєю суттю не є вищими за розумні судження».
    • Здавалося б, просте питання про кількість слів в англійській мові відразу натикається на питання про архаїчні форми, облік префіксів і суфіксів, багатозначність слова, варіанти написання, діалекти, вигадливі твори (як ектопластика з ектоплазми і статистика) [10], [10] технічну лексику тощо.
  • Якість даних низька. [11] Прикладом є розміри одягу. Люди мають широкий діапазон розмірів і форм тіла. Очевидно, що розміри одягу повинні бути багатовимірними. Натомість вони складні несподіваним чином. Деякий одяг продається лише за розміром (без прямого врахування форми тіла), розміри залежать від країни та виробника, а деякі розміри навмисно вводять в оману. Хоча розміри є числовими, за умови обережного використання числових значень розмірів, можливий лише найгрубіший статистичний аналіз.
  • Популярна преса має обмежений досвід і змішані мотиви.[12] Якщо факти «не заслуговують на висвітлення у новинах» (що може вимагати перебільшення), вони можуть бути не опубліковані. Мотиви рекламістів ще більш неоднозначні.
  • «Політики використовують статистику так само, як п'яниця використовує ліхтарні стовпи — для підтримки, а не для освітлення» — Ендрю Ленг (WikiQuote) «Чого ми дізнаємося з цих двох способів розгляду тих самих цифр? Ми дізнаємося, що розумний пропагандист, праворуч чи ліворуч, майже завжди може знайти спосіб представити дані про економічне зростання, які, здається, підтверджують її аргументи. Тому ми також навчимося сприймати будь-який статистичний аналіз із сильно політичного джерела жменями солі».[13] Термін «статистика» походить від чисел, які генеруються та використовуються державою. Хороший уряд може потребувати точних цифр, але популістичний уряд може потребувати підтримуючих цифр (не обов'язково однакових). «Використання та зловживання статистичними даними урядами є давнім мистецтвом». [14]

Види неправильного використання[ред. | ред. код]

Відкидання несприятливих спостережень[ред. | ред. код]

Все, що компанія повинна зробити для просування нейтрального (некорисного) продукту, це знайти або провести, наприклад, 40 досліджень з рівнем довіри 95 %. Якщо продукт справді марний, це в середньому призведе до одного дослідження, яке показує, що продукт був корисним, одного дослідження, яке показує, що він шкідливий, і тридцяти восьми безрезультатних досліджень (38 — це 95 % із 40). Ця тактика стає ефективнішою, чим більше доступних досліджень. Організації, які не публікують кожне дослідження, яке вони проводять, наприклад тютюнові компанії, які заперечують зв'язок між курінням і раком, групи захисту інтересів проти куріння та засоби масової інформації, які намагаються довести зв'язок між курінням і різними захворюваннями, або продавці чудодійних таблеток, ймовірно, використовувати цю тактику.

Рональд Фішер розглянув це питання у своєму прикладі експерименту знаменитої жінки, яка куштує чай (з його книги 1935 року «Планування експериментів»[en]). Стосовно повторних експериментів він сказав: «Це було б явно незаконним і позбавило б наші розрахунки основи, якби всі невдалі результати не були враховані».

Інший термін, пов'язаний з цим поняттям, — вибіркові докази.

Ігнорування важливих ознак[ред. | ред. код]

Багатоваріантні набори даних мають дві або більше ознак/вимірів. Якщо для аналізу вибрано занадто мало з цих ознак (наприклад, якщо вибрано лише одну ознаку та виконується проста лінійна регресія замість множинної лінійної регресії), результати можуть ввести в оману. Це робить аналітика вразливим до будь-якого з різноманітних статистичних парадоксів або в деяких (не у всіх) випадках хибної причинності, як показано нижче.

Навантажені питання[ред. | ред. код]

Відповідями на опитування часто можна маніпулювати, формулюючи питання таким чином, щоб спровокувати перевагу певної відповіді респондента. Наприклад, під час опитування на підтримку війни запитання:

  • Чи підтримуєте ви спробу США принести свободу та демократію в інші місця світу?
  • Чи підтримуєте ви неспровоковані військові дії США?

ймовірно, дані будуть спотворені в різні боки, хоча вони обидва опитують щодо підтримки війни. Краще сформулювати запитання так: «Чи підтримуєте ви поточні військові дії США за кордоном?» Ще більш нейтральний спосіб поставити це питання: «Яка ваша думка щодо поточних військових дій США за кордоном?» Справа в тому, що особа, яку запитують, не може здогадатися з формулювання, що запитувач може хотіти почути.

Інший спосіб зробити це — передати до запитання інформацію, яка підтверджує «бажану» відповідь. Наприклад, більше людей, ймовірно, відповість «так» на запитання «Враховуючи зростаючий тягар податків для сімей середнього класу, чи підтримуєте ви зниження податку на прибуток?» ніж на запитання «Враховуючи зростаючий дефіцит федерального бюджету та відчайдушну потребу в додаткових надходженнях, чи підтримуєте ви скорочення прибуткового податку?»

Правильна постановка питань може бути дуже тонкою. Відповіді на два запитання можуть сильно відрізнятися залежно від порядку їх постановки.[15] «Опитування, яке запитувало про „володіння акціями“, показало, що більшість власників ранчо Техасу володіли акціями, хоча, ймовірно, не такими, якими торгують на Нью-Йоркській фондовій біржі». [16]

Надмірне узагальнення[ред. | ред. код]

Надмірне узагальнення — це помилка, яка виникає, коли стверджується, що статистичні дані щодо певної сукупності відповідають членам групи, для якої вихідна сукупність не є репрезентативною вибіркою.

Наприклад, припустимо, що влітку 100 % яблук червоні. Твердження «Усі яблука червоні» було б прикладом надмірного узагальнення, оскільки початкова статистика була вірною лише для певної підмножини яблук (тих, що були влітку), які, як очікується, не будуть репрезентативними для сукупності яблук загалом.

Реальний приклад помилки надмірного узагальнення можна спостерігати як артефакт сучасних методів опитування, які забороняють дзвонити на мобільні телефони для політичних опитувань по телефону. Оскільки молоді люди частіше, ніж інші демографічні групи, не володіють звичайним «стаціонарним» телефоном, телефонне опитування, у якому беруть участь виключно відповіді на дзвінки зі стаціонарних телефонів, може призвести до того, що результати опитування занизять вибірку поглядів молодих людей, якщо не вжити інших заходів щоб врахувати цей перекіс вибірки. Таким чином, опитування, яке вивчає виборчі переваги молодих людей за допомогою цієї методики, може бути не зовсім точним відображенням справжніх виборчих уподобань молодих людей у цілому без надмірного узагальнення, оскільки використана вибірка виключає молодих людей, які носять лише мобільні телефони, які можуть або можуть не мати виборчих уподобань, які відрізняються від решти населення.

Надмірне узагальнення часто відбувається, коли інформація передається через нетехнічні джерела, зокрема засоби масової інформації.

Упереджені вибірки[ред. | ред. код]

Приклад: ефект плацебо (розум над тілом) дуже потужний. У 100 % суб'єктів з'явилася висипка під час впливу інертної речовини, яка помилково називалася отруйним плющем, тоді як у небагатьох з'явилася висипка на «нешкідливому» предметі, який насправді був отруйним плющем.[17] Дослідники борються з цим ефектом шляхом подвійних сліпих рандомізованих порівняльних експериментів. Статистики зазвичай більше турбуються про достовірність даних, ніж про аналіз. Це відображено в галузі дослідження статистики, відомої як планування експериментів.

Вибірковий вплив стільникових телефонів на збір даних (обговорюється в розділі «Надмірне узагальнення») є одним із потенційних прикладів; Якщо молоді люди зі звичайними телефонами не є репрезентативними, вибірка може бути необ'єктивною. Вибіркові опитування мають багато підводних каменів і вимагають особливої обережності у виконанні.[18] Одна спроба вимагала майже 3000 телефонних дзвінків, щоб отримати 1000 відповідей. Проста випадкова вибірка генеральної сукупності «не проста і не може бути випадковою». [19]

Невірне повідомлення або неправильне розуміння оцінки помилки[ред. | ред. код]

Якщо дослідницька група хоче знати, як 300 мільйонів людей ставляться до певної теми, було б недоцільно запитувати їх усіх. Однак, якщо команда обере випадкову вибірку приблизно з 1000 осіб, вона може бути досить впевнена, що результати, надані цією групою, є репрезентативними щодо того, що сказала б більша група, якби їх усіх запитали.

Цю впевненість насправді можна кількісно визначити центральною граничною теоремою та іншими математичними результатами. Впевненість виражається як ймовірність того, що справжній результат (для більшої групи) знаходиться в межах певного діапазону оцінки (цифра для меншої групи). Це цифра «плюс-мінус», яку часто цитують у статистичних дослідженнях. Імовірнісна частина рівня довіри зазвичай не згадується; якщо так, то вважається, що це стандартне число, наприклад 95 %.

Ці два числа пов'язані. Якщо опитування має оцінену похибку ±5 % при достовірності 95 %, воно також має оцінену помилку ±6,6 % при довірчій достовірності 99 %. ±  % при 95 % достовірності завжди дорівнює ±  % при 99 % достовірності для нормально розподіленої сукупності.

Чим менша оцінена помилка, тим більша необхідна вибірка при заданому рівні достовірності; наприклад, з довірою 95,4 % :

  • ±1 % потребує 10 000 осіб.
  • ±2 % потребує 2500 осіб.
  • ±3 % вимагатиме 1111 осіб.
  • ±4 % потребує 625 осіб.
  • ±5 % потребує 400 осіб.
  • ±10 % потребує 100 осіб.
  • ±20 % потребує 25 осіб.
  • ±25 % потребує 16 осіб.
  • ±50 % потребує 4 осіб.

Люди можуть припустити, оскільки цифра достовірності пропущена, що існує 100 % впевненість, що справжній результат знаходиться в межах оціненої похибки. Це не є математично правильним.

Багато людей можуть не усвідомлювати, що випадковість вибірки дуже важлива. На практиці багато опитувань громадської думки проводяться телефоном, що декількома способами спотворює вибірку, включаючи виключення людей, які не мають телефонів, перевагу включення людей, які мають більше одного телефону, перевагу включення людей, які готові участь у телефонному опитуванні над тими, хто відмовляється тощо. Невипадкова вибірка робить оцінену помилку ненадійною.

З іншого боку, люди можуть вважати, що статистика за своєю суттю ненадійна, тому що не всіх викликають або тому, що їх самих ніколи не опитують. Люди можуть подумати, що неможливо отримати дані про думку десятків мільйонів людей, просто опитавши кілька тисяч. Це теж неточно. [a] Опитування з ідеальною неупередженою вибіркою та правдивими відповідями має математично визначену межу похибки, яка залежить лише від кількості опитаних людей.

Однак часто для опитування повідомляється лише про одну похибку. Коли повідомляються результати для підгруп населення, застосовуватиметься більша похибка, але це може бути неясно. Наприклад, опитування 1000 осіб може містити 100 осіб певної етнічної чи економічної групи. Результати, зосереджені на цій групі, будуть набагато менш надійними, ніж результати для всієї сукупності. Якщо похибка для повної вибірки становила, скажімо, 4 %, то похибка для такої підгрупи може становити близько 13 %.

Існує також багато інших проблем вимірювання в опитуваннях населення.

Зазначені вище проблеми стосуються всіх статистичних експериментів, а не лише опитувань населення.

Помилкова причинність[ред. | ред. код]

Коли статистичний тест показує кореляцію між A і B, зазвичай є шість можливостей:

  1. А є причиною В.
  2. В є причиною А.
  3. A і B частково спричиняють один одного.
  4. А і В спричинені третім фактором, С.
  5. B спричинено C, який корелює з A.
  6. Спостережувана кореляція була цілком випадковою.

Шоста можливість може бути визначена кількісно за допомогою статистичних тестів, які можуть обчислити ймовірність того, що спостережувана кореляція буде такою ж великою, як і випадкова, якщо фактично між змінними немає зв'язку. Однак, навіть якщо така можливість має невелику ймовірність, все одно існують п'ять інших.

Якщо кількість людей, які купують морозиво на пляжі, статистично пов'язана з кількістю людей, які потонули на пляжі, тоді ніхто не стане стверджувати, що морозиво викликає потоплення, оскільки очевидно, що це не так. (У цьому випадку як утоплення, так і купівля морозива чітко пов'язані третім фактором: кількістю людей на пляжі).

Цю помилку можна використати, наприклад, щоб довести, що вплив хімічної речовини викликає рак. Замініть «кількість людей, які купують морозиво» на «кількість людей, які зазнали впливу хімікату Х», а «кількість людей, які потонули» на «кількість людей, які захворіли на рак», і багато людей вам повірять. У такій ситуації може існувати статистична кореляція, навіть якщо реального ефекту немає. Наприклад, якщо існує думка, що хімічний завод є «небезпечним» (навіть якщо це насправді не так), вартість власності в цьому районі знизиться, що спонукатиме більше сімей з низьким рівнем доходу переїхати в цей район. Якщо сім'ї з низьким рівнем доходу мають більше шансів захворіти на рак, ніж сім'ї з високим рівнем доходу (через погане харчування, наприклад, або обмежений доступ до медичної допомоги), то рівень раку зростатиме, навіть якщо хімічна речовина сама по собі не є небезпечною. Вважається[22], що саме це сталося з деякими ранніми дослідженнями, які показали зв'язок між ЕМП (електромагнітними полями) від ліній електропередач і раком.[23]

У добре спланованих дослідженнях ефект хибного причинно-наслідкового зв'язку можна усунути шляхом розподілу деяких людей у «групу лікування», а деяких людей у «контрольну групу» випадковим чином, призначаючи групі лікування лікування, і не даючи контрольній групі лікування. У наведеному вище прикладі дослідник може піддати дії хімічної речовини Х одну групу людей і залишити другу групу без впливу. Якщо в першій групі були вищі показники раку, дослідник знає, що немає третього фактора, який би вплинув на те, чи була людина піддана дії речовини, оскільки він контролював, хто був підданий дії речовини чи ні, і він випадковим чином розподіляв людей на групи, які піддавалися дії речовини, і до груп, що не піддавалися дії речовини. Однак у багатьох додатках фактичне проведення експерименту таким чином є або надмірно дорогим, нездійсненним, неетичним, незаконним або просто неможливим. Наприклад, дуже малоймовірно, що IRB прийме експеримент, який передбачає навмисне піддавання людей дії небезпечної речовини з метою перевірки її токсичності. Очевидні етичні наслідки таких типів експериментів обмежують здатність дослідників емпірично перевіряти причинно-наслідковий зв'язок.

Доказ нульової гіпотези[ред. | ред. код]

У статистичному тесті нульова гіпотеза () вважається дійсною, доки достатньо даних не підтвердить її неправильність. Потім відхиляється, а альтернативна гіпотеза () вважається доведеною як правильна. Випадково це може статися, хоча вірно, з ймовірністю позначеною (рівень значущості). Це можна порівняти з судовим процесом, де обвинувачений вважається невинним () доки вину не буде доведено () поза розумним сумнівом ().

Але якщо дані не дають нам достатньо доказів, щоб відхилити , це автоматично не доводить правильності . Якщо, наприклад, виробник тютюну бажає продемонструвати, що його продукція безпечна, він може легко провести тест із невеликою вибіркою курців проти невеликої вибірки некурців. Малоймовірно, що хтось із них захворіє на рак легенів (і навіть якщо це станеться, різниця між групами має бути дуже великою, щоб відхилити ). Тому цілком ймовірно, що наш тест не відхилить , навіть коли куріння небезпечне. Якщо прийнято, це не означає автоматично, що куріння доведено нешкідливим. Тест має недостатню потужність для відхилення , тому тест марний і значення «доказу» також є нульовим.

Це можна — використовуючи наведений вище судовий аналог — порівняти з дійсно винним підсудним, якого звільняють лише тому, що доказів недостатньо для винесення обвинувального вироку. Це не доводить невинуватість підсудного, а лише те, що доказів недостатньо для винесення обвинувального вироку.

«…нульова гіпотеза ніколи не доведена або встановлена, але вона, можливо, спростовується в ході експерименту. Можна сказати, що кожен експеримент існує лише для того, щоб дати фактам шанс спростувати нульову гіпотезу». (Фішер у Планування експериментів[en]) Існує багато причин для плутанини, включаючи використання подвійної негативної логіки та термінології, що є результатом злиття Фішерового «перевірки значущості» (де нульова гіпотеза ніколи не приймається) з «перевіркою гіпотези» (де деяка гіпотеза завжди приймається).

Плутання статистичної значущості з практичною значущістю[ред. | ред. код]

Статистична значущість є мірою ймовірності; практичне значення є мірою ефекту. [24] Лікування облисіння є статистично значущим, якщо рідкісний персиковий пух зазвичай покриває раніше голу шкіру голови. Лікування є практично значущим, коли шапка більше не потрібна в холодну погоду, а перукар запитує, скільки знімати зверху. Лисі хочуть лікування, яке є як статистично, так і практично значущим. Ймовірно, це спрацює, і якщо це спрацює, це матиме великий ефект волосся. Наукова публікація часто вимагає лише статистичної значущості. Це призвело до скарг (за останні 50 років), що перевірка статистичної значущості є неправильним використанням статистики.[25]

Просіювання даних[ред. | ред. код]

Просіювання даних є зловживанням інтелектуальним аналізом даних. Під час просіювання даних досліджуються великі компіляції даних, щоб знайти кореляцію, без будь-якого попередньо визначеного вибору гіпотези для перевірки. Оскільки необхідний довірчий інтервал для встановлення зв'язку між двома параметрами зазвичай вибирається рівним 95 % (це означає, що існує 95 % ймовірність того, що спостережуваний зв'язок не є випадковим), таким чином існує 5 % шанс знайти кореляцію між будь-якими двома наборами абсолютно випадкових змінних. З огляду на те, що спроби просіювання даних зазвичай вивчають великі набори даних із багатьма змінними, а отже, навіть більшу кількість пар змінних, будь-яке таке дослідження майже напевно одержить помилкові, але, очевидно, статистично значущі результати.

Зауважте, що просіювання даних є дійсним способом пошуку можливої гіпотези, але цю гіпотезу потрібно потім перевірити з даними, які не використовувалися в початковому просіюванні. Зловживання виникає, коли цю гіпотезу висловлюють як факт без подальшого підтвердження.

«Ви не можете законно перевірити гіпотезу на тих самих даних, на яких вперше висунули цю гіпотезу. Засіб зрозумілий. Коли у вас є гіпотеза, розробіть дослідження для конкретного пошуку ефекту, який, на вашу думку, є. Якщо результат цього тесту є статистично значущим, у вас нарешті є реальні докази» [26]

Маніпулювання даними[ред. | ред. код]

Ця практика, неофіційно названа «підробкою даних», включає вибіркове звітування (див. також упередженість публікації) і навіть просто створення неправдивих даних.

Прикладів вибіркового звітування чимало. Найпростіші та найпоширеніші приклади включають вибір групи результатів, які відповідають шаблону, узгодженому з переважною гіпотезою, ігноруючи при цьому інші результати або «прогони даних», які суперечать гіпотезі.

Вчені, як правило, сумніваються в достовірності результатів дослідження, які не можуть бути відтворені іншими дослідниками. Однак деякі вчені відмовляються публікувати свої дані та методи.[27]

Маніпулювання даними є серйозною проблемою/розглядом у найчеснішому статистичному аналізі. Викиди, відсутні дані та відхилення від норми можуть негативно вплинути на достовірність статистичного аналізу. Доцільно вивчити дані та усунути реальні проблеми перед початком аналізу. «[На] будь-якій точковій діаграмі будуть деякі точки, більш-менш відокремлені від основної частини хмари: ці точки слід відхиляти лише з причини».[28]

Інші помилки[ред. | ред. код]

Псевдореплікація[en] — технічна помилка, пов'язана з дисперсійним аналізом . Складність приховує той факт, що статистичний аналіз намагається провести на одній вибірці (N=1). Для цього виродженого випадку дисперсія не може бути обчислена (поділ на нуль). (N=1) завжди дасть досліднику найвищу статистичну кореляцію між упередженням наміру та фактичними результатами.

Помилка гравця припускає, що подія, для якої можна виміряти майбутню ймовірність, мала таку саму ймовірність відбутися, коли вона вже сталася. Таким чином, якщо хтось уже кинув 9 монет, і кожна з них вийшла орелами, люди схильні припускати, що ймовірність того, що десятий підкидок також буде орелами, становить 1023 до 1 проти (що було до того, як було підкинуто першу монету), хоча насправді ймовірність десятої голови становить 50 % (припускаючи, що монета неупереджена).

Помилка прокурора[29] припускає, що ймовірність того, що очевидно злочинна подія є випадковою, дорівнює ймовірності того, що підозрюваний невинний. Яскравим прикладом у Великобританії є незаконне засудження Саллі Кларк[en] за вбивство двох її синів, які, як видається, померли від синдрому раптової дитячої смерті (СРДС). У своїх експертних свідченнях нині дискредитований професор сер Рой Медоу[en] стверджував, що через рідкість СРДС ймовірність того, що Кларк буде невинним, становить 1 до 73 мільйонів. Пізніше Королівське статистичне товариство поставило це під сумнів;[30] якщо припустити, що цифра Медоуз була точною, потрібно зважити всі можливі пояснення одне проти одного, щоб зробити висновок, що, найімовірніше, спричинило незрозумілу смерть двох дітей. Наявні дані свідчать про те, що шанси будуть на користь подвійного СРДС порівняно з подвійним вбивством у дев'ять разів.[31] Цифра 1 на 73 мільйони також вводила в оману, оскільки її було отримано шляхом визначення ймовірності смерті дитини від СРДС із заможної сім'ї, яка не палить, і зведення її до квадрата: це помилково розглядає кожну смерть як статистично незалежну, припускаючи, що фактор не існує., як-от генетика, що підвищить імовірність смерті двох братів і сестер від СРДС.[32][33] Це також приклад екологічної помилки, оскільки припускається, що ймовірність СРДС у родині Кларка була такою ж, як середня для всіх заможних сімей, які не палили; соціальний клас — це дуже складне й багатогранне поняття, що включає багато інших змінних, таких як освіта, вид роботи та багато іншого. Припущення, що окрема особа матиме ті самі якості, що й решта даної групи, не враховує вплив інших змінних, які, у свою чергу, можуть ввести в оману.[33] Засудження Саллі Кларк зрештою було скасовано, а Медоуз було вилучено з медичного реєстру.[34]

Ігрова помилка[en]. Імовірності базуються на простих моделях, які ігнорують реальні (якщо віддалені) можливості. Гравці в покер не вважають, що опонент може взяти пістолет, а не карту. Страхувальники (і уряди) припускають, що страховики залишаться платоспроможними, але бачать AIG і системний ризик[en].

Інші види зловживання[ред. | ред. код]

Інші зловживання включають порівняння яблук і апельсинів, використання неправильного середнього,[35] регресію до середнього значення[36] та фразу-парасольку сміття на вході, сміття на виході . [37] Деякі статистичні дані просто не мають відношення до проблеми.[38]

Квартет Анскомба — це вигаданий набір даних, який демонструє недоліки простої описової статистики (та цінність побудови даних перед чисельним аналізом).

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

Зноски[ред. | ред. код]

  1. Some data on accuracy of polls is available. Regarding one important poll by the U.S. government, "Relatively speaking, both sampling error[en] and non-sampling [bias] error are tiny."[20] The difference between the votes predicted by one private poll and the actually tally for American presidential elections is available for comparison at «Election Year Presidential Preferences: Gallup Poll Accuracy Record: 1936—2012». The predictions were typically calculated on the basis of less than 5000 opinions by likely voters.[21]

Джерела[ред. | ред. код]

  1. Spirer, Spirer та Jaffe, 1998, с. 1.
  2. Gardenier, John; Resnik, David (2002). The misuse of statistics: concepts, tools, and a research agenda. Accountability in Research: Policies and Quality Assurance. 9 (2): 65—74. doi:10.1080/08989620212968. PMID 12625352.
  3. Fischer, David (1979). Historians' fallacies: toward a logic of historical thought. New York: Harper & Row. с. 337—338. ISBN 978-0060904982.
  4. Strasak, Alexander M.; Qamruz Zaman; Karl P. Pfeiffer; Georg Göbel; Hanno Ulmer (2007). Statistical errors in the medical research-a review of common pitfalls. Swiss Medical Weekly. 137 (3–4): 44—49. doi:10.4414/smw.2007.11587. PMID 17299669. In this article anything less than the best statistical practice is equated to the potential misuse of statistics. In a few pages 47 potential statistical errors are discussed; errors in study design, data analysis, documentation, presentation and interpretation. «[S]tatisticians should be involved early in study design, as mistakes at this point can have major repercussions, negatively affecting all subsequent stages of medical research.»
  5. Indrayan, Abhaya (2007). Statistical fallacies in orthopedic research. Indian Journal of Orthopaedics. 41 (1): 37—46. doi:10.4103/0019-5413.30524. PMC 2981893. PMID 21124681.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) Contains a rich list of medical misuses of statistics of all types.
  6. Spirer, Spirer та Jaffe, 1998, chapters 7 & 8.
  7. Spirer, Spirer та Jaffe, 1998, chapter 3.
  8. Spirer, Spirer та Jaffe, 1998, chapter 4.
  9. Adler, Robert; John Ewing; Peter Taylor (2009). Citation statistics. Statistical Science. 24 (1): 1—14. doi:10.1214/09-STS285.
  10. а б Spirer, Spirer та Jaffe, 1998, chapter title.
  11. Spirer, Spirer та Jaffe, 1998, chapter 5.
  12. Weatherburn, Don (November 2011), Uses and abuses of crime statistics (PDF), Crime and Justice Bulletin: Contemporary Issues in Crime and Justice, NSW Bureau of Crime Statistics and Research, 153, ISBN 9781921824357, ISSN 1030-1046, архів оригіналу (PDF) за 21 червня 2014 This Australian report on crime statistics provides numerous examples of interpreting and misinterpreting the data. «The increase in media access to information about crime has not been matched by an increase in the quality of media reporting on crime. The misuse of crime statistics by the media has impeded rational debate about law and order.» Among the alleged media abuses: selective use of data, selective reporting of facts, misleading commentary, misrepresentation of facts and misleading headlines. Police and politicians also abused the statistics.
  13. Krugman, Paul (1994). Peddling prosperity: economic sense and nonsense in the age of diminished expectations. New York: W.W. Norton. с. 111. ISBN 0-393-03602-2.
  14. Spirer, Spirer та Jaffe, 1998.
  15. Kahneman, 2013, с. 102.
  16. Moore та Notz, 2006, с. 59.
  17. Moore та Notz, 2006, с. 97.
  18. Moore та McCabe, 2003, с. 252–254.
  19. Moore та Notz, 2006, с. 53, Sample surveys in the real world.
  20. Freedman, Pisani та Purves, 1998, chapter 22: Measuring Employment and Unemployment, p. 405.
  21. Freedman, Pisani та Purves, 1998, с. 389–390.
  22. Farley, John W. (2003). Barrett, Stephen (ред.). Power Lines and Cancer: Nothing to Fear. Quackwatch.
  23. Vince, Gaia (3 червня 2005). Large study links power lines to childhood cancer. New Scientist. Архів оригіналу за 16 серпня 2014. Cites: Draper, G. (2005). Childhood cancer in relation to distance from high voltage power lines in England and Wales: a case-control study. BMJ. 330 (7503): 1290. doi:10.1136/bmj.330.7503.1290. PMC 558197. PMID 15933351.
  24. Moore та McCabe, 2003, с. 463.
  25. Rozeboom, William W. (1960). The fallacy of the null-hypothesis significance test. Psychological Bulletin. 57 (5): 416—428. doi:10.1037/h0042040. PMID 13744252.
  26. Moore та McCabe, 2003, с. 466.
  27. Neylon, C (2009). Scientists lead the push for open data sharing. Research Information. Europa Science. 41: 22—23. ISSN 1744-8026. Архів оригіналу за 3 грудня 2013.
  28. (Freedman, Pisani та Purves, 1998)
  29. Seife, Charles (2011). Proofiness: how you're being fooled by the numbers. New York: Penguin. с. 203–205 and Appendix C. ISBN 9780143120070. Discusses the notorious British case.
  30. Royal Statistical Society (23 October 2001). «Royal Statistical Society concerned by issues raised in Sally Clark case (PDF). Архів оригіналу (PDF) за 24 серпня 2011. (28.0 KB)»
  31. Hill, R. (2004). Multiple sudden infant deaths – coincidence or beyond coincidence?. Paediatric and Perinatal Epidemiology. 18 (5): 320—6. doi:10.1111/j.1365-3016.2004.00560.x. PMID 15367318.
  32. Beyond reasonable doubt. Plus Maths (англ.). Процитовано 1 квітня 2022.
  33. а б Watkins, Stephen J. (1 січня 2000). Conviction by mathematical error?: Doctors and lawyers should get probability theory right. BMJ (англ.). 320 (7226): 2—3. doi:10.1136/bmj.320.7226.2. ISSN 0959-8138. PMC 1117305. PMID 10617504.
  34. Dyer, Clare (21 липня 2005). Professor Roy Meadow struck off. BMJ (англ.). 331 (7510): 177. doi:10.1136/bmj.331.7510.177. ISSN 0959-8138. PMC 1179752. PMID 16037430.
  35. Huff, 1954, chapter 2.
  36. Kahneman, 2013, chapter 17.
  37. Hooke, 1983, §50.
  38. Campbell, 1974, chapter 3: Meaningless statistics.

Подальше читання[ред. | ред. код]