Кореляція і залежність

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Декілька наборів точок (xy), над кожним з яких вказано коефіцієнт кореляції Пірсона величин x і y. Слід відмітити, що кореляція відображає зашумленість і напрям лінійної залежності (верхній ряд), але не відображає нахилу цієї залежності (по середині), і не відображає багато аспектів нелінійних залежностей (нижній ряд). N.B.: малюнок в центрі має нульовий нахил, але в даному випадку коефіцієнт кореляції є невизначними, оскільки дисперсія Y дорівнює нулю.

У статистиці залежність або пов'язаність є будь-яким статистичним відношенням, чи каузальним, чи ні, між двома випадковими величинами або біваріантними даними. До поняття кореляція відноситься будь-яке статистичне відношення із з широкого класу відношень, що задають залежність величин, хоча зазвичай про кореляцію говорять тоді, коли дві величини перебувають у лінійному відношенні між собою. При цьому, зміна однієї або кількох цих величин призводить до систематичної зміни іншої або інших величин. Знайомими прикладами залежних феноменів є кореляція між фізичними параметрами батьків та їхніх дітей і кореляція між попитом на товар і його ціною.

Користь кореляцій у тому, що вони можуть вказувати на відношення, яке може носити передбачуваний характер і тому мати практичне застосування. Наприклад, електрогенеруюча компанія може виробляти менше електрики у періоди з хорошою погодою, базуючись на кореляції між попитом на електрику та погодою. У цьому випадку існує причинно-наслідковий зв'язок, тому що в екстремальну погоду люди використовують більше електрики для опалювання або охолодження. Однак зазвичай самої лише наявності кореляції недостатньо для того, щоб зробити висновок про наявність причинно-наслідкового зв'язку (що часто формулюють фразою «кореляція не означає причинності».

Кореляція може бути позитивною та негативною (можлива також ситуація відсутності статистичного зв'язку — наприклад, для незалежних випадкових величин). Від'ємна кореляція — кореляція, при якій збільшення однієї змінної пов'язане зі зменшенням іншої, при цьому коефіцієнт кореляції від'ємний. Додатна кореляція — кореляція, при якій збільшення однієї змінної пов'язане зі збільшенням іншої, при цьому коефіцієнт кореляції додатній.

Коефіцієнт кореляції[ред. | ред. код]

Найбільш відомою мірою залежності двох величин є коефіцієнт кореляції Пірсона, який зазвичай називають спрощено коефіцієнтом кореляції. Він розраховується як відношення коваріації двох випадкових величин на добуток їх стандартних відхилень. Карл Пірсон розробив цей коефіцієнт взявши за основу подібну, але дещо відмінну ідею Френсіса Гальтона.[1]

Нехай та  — випадкові величини з математичним сподіванням μX та μY і стандартними відхиленнями σX та σY. Їх коефіцієнт кореляції позначається як і дорівнює:[2]

де:

 — коваріація величин та ,
 — стандартне відхилення величин та ,
 — оператор математичного сподівання.

Кореляція Пірсона є визначеною тільки якщо обидва стандартні відхилення є скінченними і не дорівнюють нулю. Це є наслідком нерівності Коші-Буняковського, яка встановлює що кореляція не може перевищувати 1 в абсолютному значенні. Коефіцієнт кореляції є симетричним: corr(X,Y) = corr(Y,X).

Кореляція Пірсона дорівнює +1 у випадку прямої (зростаючої) лінійної залежності (кореляції), −1 у випадку ідеальної оберненої (спадної) лінійної залежності (антикореляція),[3], а в усіх інших випадках приймає деяке значення у відкритому проміжку (−1, 1), і означає степінь лінійної залежності двох величин. Із наближенням до нуля тим менших зв'язок між величинами (ближче до некорельованого). Чим ближче коефіцієнт до −1 або 1, тим сильніше кореляція між величинами.

Якщо змінні є статистично незалежними, коефіцієнт кореляції Пірсона дорівнює 0, але зворотнє твердження не є вірним, оскільки коефіцієнт кореляції визначає лише лінійні залежності між двома величинами. Наприклад, припустимо випадкова величина X симетрично розподілена довкола нуля, і Y = X2. Тоді Y повністю визначається на основі X, таким чином X і Y повністю залежні величини, але їх кореляція дорівнює нулю; вони не є корельованими]. Однак, в особливому випадку коли X і Y сумісно нормально розподілені, відсутність кореляції буде еквівалентне їх незалежності.

Якщо ми маємо послідовність з n вимірювань для X і Y записані як xi і yi для i = 1, 2, …, n, тоді для визначення кореляції Пірсона r між величинами X і Y для вибірки можливо використати коефіцієнт кореляції вибірки . Коефіцієнт кореляції для вибірки буде записаний наступним чином

де x і y середні значення для вибірки величин X і Y, а sx і sy є є незміщеною (корегована) оцінкою стандартного відхилення для X і Y.

Некорегована форма розрахунку r (не типова) може бути записана наступним чином

де sx і sy тепер є некорегованими (зміщеними) стандартними відхиленнями вибірки для X і Y.

Якщо x і y є результатами вимірювань, що містять похибку вимірювання, реалістичні межі коефіцієнту кореляції не будуть знаходитися у проміжку від −1 до +1, а будуть знаходитися у вужчому проміжку.[4] Для випадку лінійної моделі із єдиною незалежною змінною використовують коефіцієнт детермінації (R квадрат), що є квадратом значення r.

Властивості[ред. | ред. код]

Якщо X та Y — незалежні, то коефіцієнт кореляції дорівнює 0. Зворотне твердження невірне. Коефіцієнт кореляції може дорівнювати 0 навіть якщо Y є функцією від X.[2]

Завжди виконується нерівність:[2]

.

Причому тоді і лише тоді, коли , де a та b — сталі.

Кореляційні матриці[ред. | ред. код]

Кореляційна матриця n випадкових змінних X1, …, Xn — це матриця розміру n × n елементи рядка i і стовпця j якої . Якщо мірою кореляції є коефіцієнт кореляції Пірсона, то матриця кореляції дорівнює матриці коваріації стандартизованих змінних[en] для .

Матриця кореляції симетрична, бо кореляція між Xi та Xj дорівнює кореляції між Xj та Xi.

Кореляційні матриці, як приклад, використовують в одній із формул для розрахунку коефіцієнту множинної кореляції[en], що є мірою пристосованості для багатовимірної регресії.

Загальні помилки[ред. | ред. код]

Кореляція і причинність[ред. | ред. код]

Докладніше: Cum hoc ergo propter hoc

Твердження про те, що «кореляція не означає причинно-наслідкового зв'язку» означає, що кореляцію не можна застосовувати для виявлення причинного зв'язку між випадковими змінними.[5] Цей вислів не слід розуміти, що кореляція не може вказувати на потенційне існування такого зв'язку. Однак, причини що встановлюють кореляцію, якщо такі є, можуть бути не прямими та не відомими, а також високі значення кореляції можуть перетинатися із тотожними зв'язками (тавтологіями), де не існує ніякого причинного процесу. Отже, встановлення кореляції між двома випадковими величинами не є достатньою умовою, аби говорити про причинний зв'язок (в обох напрямках).

Кореляція між віком і зростом дітей є причинно явною, в той час кореляція між настроєм і здоров'ям людей не є настільки явною. Чи покращення настрою призводить до покращення здоров'я, чи хороше здоров'я є причиною хорошого настрою, чи і те і інше? Чи може в основі них обох лежать якісь інші фактори? Іншими словами, кореляцію можна вважати доказом видимого причинно-наслідкового зв'язку, але вона не може вказувати що є цією причиною і наслідком, якщо такі можуть мати місце.

Кореляція і лінійність[ред. | ред. код]

Чотири набори даних із однаковою кореляцією 0.816

Коефіцієнт кореляції Пірсона оцінює величину лінійної залежності двох величин, але його значення в загальному випадку не повністю характеризує їх зв'язок.[6] Зокрема, якщо умовне математичне сподівання величини Y при умові X, що позначено як E(Y | X), не є лінійним при X, кореляційний коефіцієнт не зможе повністю визначити форму E(Y | X).

На малюнку праворуч показані діаграми розсіювання Квартету Анскомбе, набір із чотирьох різних пар величин, які створив Френк Анскомб[en].[7] Чотири змінні y мають однакове сподівання (7.5), дисперсію (4.12), кореляцію (0.816) і пряму регресії (y = 3 + 0.5x). Однак, як видно з наведених діаграм, розподіл цих величин є дуже різним. Перший (ліворуч зверху) схоже має нормальний розподіл, і відповідає тому, що можна було б очікувати у випадку коли дві величини корелюють і відповідають припущенню про нормальний розподіл. Другий випадок (праворуч зверху) не має нормального розподілу; хоча можна спостерігати явний зв'язок між двома величинами, який не є лінійним. В такому випадку коефіцієнт кореляції Пірсона не вказує, що існує явна функціональна залежність: а лише величину, наскільки цей зв'язок можна апроксимувати лінійною залежністю. В третьому випадку (ліворуч внизу), лінійний зв'язок є ідеальним, за винятком одного викиду[en], який значно вплинув на зменшення коефіцієнту кореляції від можливого значення 1 до 0.816. І нарешті, четвертий приклад (праворуч знизу) показує як ще одного викиду стало достатньо аби утворити велике значення коефіцієнту кореляції, навіть коли зв'язок між двома величинами не є лінійним.

Наведені приклади показують, що коефіцієнт кореляції, який є сумарною статистикою, не може замінити собою візуального спостереження за даними. Зауважте, що приклади іноді демонструють що коефіцієнт кореляції Пірсона передбачає, що дані відповідають нормальному розподілу, але це не є вірним.[1]

Примітки[ред. | ред. код]

  1. а б Rodgers, J. L.; Nicewander, W. A. (1988). Thirteen ways to look at the correlation coefficient. The American Statistician 42 (1): 59–66. JSTOR 2685263. doi:10.1080/00031305.1988.10475524. 
  2. а б в В. Феллер (1964). Введение в теорию вероятностей и ее приложения, т. 1. М.: Мир. 
  3. Dowdy, S. and Wearden, S. (1983). «Statistics for Research», Wiley. ISBN 0-471-08602-9 pp 230
  4. Francis, DP; Coats AJ; Gibson D (1999). How high can a correlation coefficient be?. Int J Cardiol 69 (2): 185–199. doi:10.1016/S0167-5273(99)00028-5. 
  5. Aldrich, John (1995). Correlations Genuine and Spurious in Pearson and Yule. Statistical Science 10 (4): 364–376. JSTOR 2246135. doi:10.1214/ss/1177009870. 
  6. Mahdavi Damghani, Babak (2012). The Misleading Value of Measured Correlation. Wilmott 2012 (1): 64–73. doi:10.1002/wilm.10167. 
  7. Anscombe, Francis J. (1973). Graphs in statistical analysis. The American Statistician 27: 17–21. JSTOR 2682899. doi:10.2307/2682899.