Хибна кореляція

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Співвідношення кількості лелек та людської народжуваності: приклад хибної кореляції

Хибна (уявна) кореляція (англ. spurious relationship) — це взаємозалежність (узгодженість або відповідність) між двома змінними, в основі якої лежить випадковість, а не причиново-наслідковий зв'язок.

Термін викликає непорозуміння, оскільки йдеться власне про уявну причинність. Проте існує не лише уявна, але й фактична кореляція (про розмежування цих понять див.: Кореляція та причиново-наслідковий зв'язок). У будь-якому випадку кореляція — це статистичне поняття, яке не передбачає причинно-наслідкового зв'язку.

Хибна кореляція розглядається у філософії як статистичний відповідник логічній хибі (Cum hoc ergo propter hoc).

Вона виникає, наприклад, під впливом прихованих змінних. Явище уявної кореляції було відоме ще з початку дослідження статистики, а сам термін «spurious correlation» був введений у 1954 році Гербертом А. Саймоном.

Приклад хибної кореляції[ред. | ред. код]

Відомим прикладом хибної кореляції є залежність між людською народжуваністю та кількістю пар лелек у різних регіонах Європи[1]. Хоча між цими двома величинами існує відповідність (тобто чим більше лелек гніздиться біля оселі, тим більше дітей з'являється на світ), проте немає певного причинно-наслідкового зв'язку (хибний висновок, що дітей приносить лелека). Кореляція між новонародженими та парами птахів пояснюється через той факт, що зазвичай лелеки селяться в сільській місцевості, де переважають багатодітні сім'ї. Цей приклад хибної кореляції навів Єжи Нейман (1952)[2]. Позначивши кількість жінок змінною , народжених дітей , лелек , можна розрахувати значення величин за формулами: і . Далі слід намалювати незалежно розподілені вибірки випадкових змінних і співвіднести показники і , після чого отримуємо хибну кореляцію через спільний знаменник.

В історії траплялись випадки, коли хибні кореляції використовувались зловмисницьки. Наприклад, відомо, що статистик Дарелл Хафф, який отримував фінансування від тютюнових компаній, використовував явище хибної кореляції для висміювання зв'язку між цигарками та хворобами. 22 березня 1965 року Хафф дав свідчення на слуханнях Конгресу США з маркування та реклами цигарок, у яких він звинуватив головного лікаря в допущенні у медичному звіті багатьох «помилок» та «хиб». Свої нападки Хафф доповнював кумедними ремарками та висміював помилкові кореляції, і однією з них була згадана вище кореляція між кількістю лелек та дітей. Його слова мали ефект, на який Хафф розраховував. Сенатор Нойбергер, який модерував слухання, був приголомшений зауваженнями Хаффа:

Ви дійсно думаєте, що між палінням та хворобою існує такий же самий випадковий зв'язок, як і зв'язок стосовно лелек…?[3]

Хибна (уявна) регресія[ред. | ред. код]

Хибна (уявна) регресія — це окремий випадок регресії, в якому можна визначити статистично значущий зв'язок між змінною та , який не можна логічно обґрунтувати. Такі явища зумовлені спільною тенденцією у релевантних змінних. Ознакою уявної регресії є високий коефіцієнт детермінації і майже нульовий коефіцієнт Дарбіна — Уотсона (висока позитивна автокореляція першого порядку). Крім того, докази хибної регресії надає тест Дікі-Фуллера, визначаючи часовий ряд як нестаціонарний.

Лінія регресії між двома незалежними AR (1)-процесами з коренем з одиниці, включаючи -статистику.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. R. Matthews: Storks deliver babies (p= 0.008). In: Teaching Statistics. 22(2), 2000, S. 36–38, doi:10.1111/1467-9639.00013.
  2. Statistical Rules of Thumb, Second Edition. Wiley Series in Probability and Statistics. John Wiley & Sons, Inc. 18 серпня 2008. ISBN 978-0-470-37796-3.
  3. «Statement of Mr. Darrell Huff», U.S. Congressional Hearings on Cigarette Labeling and Advertising, March 22, 1965, Bates 1004800682–0694

Джерела[ред. | ред. код]

Загальна література[ред. | ред. код]

  • Гюнтер Бамберг, Франц Баур, Міхаель Крапп: Statistik. 13. видання. Oldenbourg Wissenschaftsverlag, 2007, ISBN 978-3-486-58188-1.
  • Удо Келле: Die Integration qualitativer und quantitativer Methoden in der empirischen Sozialforschung: theoretische Grundlagen und methodologische Konzepte.VS Verlag, 2007, ISBN 978-3-531-15312-4, С. 203.
  • Proctor, Robert N. (2012). Golden Holocaust: Origins of the Cigarette Catastrophe and the Case for Abolition. Berkeley: University of California Press. ISBN 9780520270169

Оригінальні роботи[ред. | ред. код]

  • Герберт А. Саймон:Spurious correlation: a causal interpretation. In: Journal of the American Statistical Association. Vol. 49, 1954, S. 467—479, doi:10.1080/01621459.1954.10483515 JSTOR 2281124.
  • Клайв У. Дж. Грейнджер, Пол Ньюболд: Spurious regressions in econometrics. In: Journal of Econometrics. Nr. 2, 1974, S. 111—120, doi:10.1016/0304-4076(74)90034-7.

Посилання[ред. | ред. код]