Коефіцієнт кореляції Пірсона
Зміст |
[ред.] Коефіцієнт кореляції Пірсона
В статистиці, коефіцієнт кореляції Пірсона (позначається "r"), є показником кореляції (лінійної залежності) між двома змінними X та Y, який набуває значень від -1 до +1 включно. Він широко використовується в науці для вимірювання ступеня лінійної залежності між двома змінними. Показник був розроблений Карлом Пірсоном (Karl Pearson) зі схожої ідеї, представленої Френсісом Гальтоном в 1880-х рр.[1][2]
[ред.] Визначення
Коефіцієнт кореляції Пірсона між двома змінними дорівнює коваріації двох змінних, або сумі добутків відхилень, поділеній на добуток їх стандартних відхилень. Нехай, є дві вибірки
Коефіцієнт кореляції Пірсона розраховується за формулою:
де
– вибіркові середні
і
– вибіркові дисперсії,
.
[ред.] Інтерпретація
Коефіцієнт кореляції набуває значень від -1 до 1. Значення +1 означає, що залежність між X та Y є лінійною, і всі точки функції лежать на прямій, яка відображає зростання Y при зростанні X. Значення -1 означає, що всі точки лежать на прямій, яка відображає зменшення Y при зростанні X. Якщо коефіцієнт кореляції Пірсона = 0, то лінійної кореляції між змінними немає.
[ред.] Значущість кореляції
| Кореляція | Негативна | Позитивна |
|---|---|---|
| Відсутня | −0.09 до 0.0 | 0.0 до 0.09 |
| Низька | −0.3 до −0.1 | 0.1 до 0.3 |
| Середня | −0.5 до −0.3 | 0.3 до 0.5 |
| Висока | −1.0 до −0.5 | 0.5 до 1.0 |
Різні автори [3][4] пропонують різні підходи до інтерпретації значення коефіцієнта кореляції. В той же час, всі критерії є певною мірою умовними, і не повинні трактуватися надто прискіпливо.[4] Інтерпретація кореляції залежить від контексту та мети. Наприклад, показник кореляції 0.9 може бути дуже низьким у випадку дослідження законів фізики з використанням високоякісного обладнання, проте може трактуватися як дуже високий в гуманітарних науках, де існує вплив багатьох інших факторів.
[ред.] Відстань Пірсона
Показник відстані для двох змінних, відомий як "відстань Пірсона", може бути обчислений з коефіцієнта кореляції як:[5]
З огляду на те, що коефіцієнт кореляції Пірсона набуває лежить в множині [-1;+1], відстань Пірсона може дорівнювати [0;2].
[ред.] Коефіцієнт кореляції Пірсона і метод найменших квадратів
Квадрат коефіцієнта кореляції, що є коефіцієнтом детермінації, обчислює частку варіативності змінної Y, яка пояснюється зміною X в простій лінійній регресії. Загальна варіація показників
відносно їх середнього значення може бути представлена наступним чином:
,
де
є середньозваженими значеннями регресії. Застосувавши математичні перетворення, отримаємо:
Два доданки зверху показують частку варіативності Y, яка пояснюється зміною X (справа) і ту, яка не пояснюється зміною X (зліва).
Далі, ми застосуємо умову методу найменших квадратів, за якою значення коваріації між
і
дорівнює нулю. Таким чином, рівняння кореляції між спостережними та середньозваженими значеннями регресії можуть бути записані так:
![\begin{align} r(Y,\hat{Y}) &= \frac{\sum_i(Y_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\ &= \frac{\sum_i(Y_i-\hat{Y}_i+\hat{Y}_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\ &= \frac{ \sum_i [(Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) +(\hat{Y}_i-\bar{Y})^2 ]}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\ &= \frac{ \sum_i (\hat{Y}_i-\bar{Y})^2 }{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\ &= \sqrt{\frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}}. \end{align}](http://upload.wikimedia.org/math/1/e/4/1e4caa31bf0f23d8efec4fb9cafbf980.png)
Звідси
Це рівняння показує частку варіативності Y, яка є лінійною функцією X.
[ред.] Обчислення зваженої кореляції
Проведені спостереження мають різні ступені важливості, які можуть бути виражені через вектор ваги w. Для обчислення кореляції між векторами x та y з використанням вектора ваги w (для будь-якого n),[6][7]
- Зважена середня:
- Зважена коваріація:
- Зважена кореляція:
[ред.] Література
- ↑ J. L. Rodgers and W. A. Nicewander. Thirteen ways to look at the correlation coefficient. The American Statistician, 42(1):59–66, February 1988.
- ↑ Stigler Stephen M. Francis Galton's Account of the Invention of Correlation // Statistical Science. — Т. 4. — (1989) (2) С. 73–79. DOI:10.1214/ss/1177012580.
- ↑ A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1, Wydawnictwo Niezalezne: 5–21, December 2010, ISBN 978-83-915272-9-0
- ↑ а б Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)
- ↑ Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (pp. 110) ISBN 1-4020-8879-5
- ↑ http://sci.tech-archive.net/Archive/sci.stat.math/2006-02/msg00171.html
- ↑ A MATLAB Toolbox for computing Weighted Correlation Coefficients
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Ця сторінка недостатньо або зовсім не категоризована чи категорії, що є на сторінці, не існують. (жовтень 2012) |


,


