Коефіцієнт кореляції Пірсона

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Коефіцієнт кореляції Пірсона[ред.ред. код]

В статистиці, коефіцієнт кореляції Пірсона (позначається "r"), є показником кореляції (лінійної залежності) між двома змінними X та Y, який набуває значень від -1 до +1 включно. Він широко використовується в науці для вимірювання ступеня лінійної залежності між двома змінними. Показник був розроблений Карлом Пірсоном (Karl Pearson) зі схожої ідеї, представленої Френсісом Гальтоном в 1880-х рр.[1][2]

Визначення[ред.ред. код]

Коефіцієнт кореляції Пірсона між двома змінними дорівнює коваріації двох змінних, або сумі добутків відхилень, поділеній на добуток їх стандартних відхилень. Нехай, є дві вибірки x^m=\left( x_1, \cdots ,x_m \right),\; y^m=\left( y_1, \cdots ,y_m \right); Коефіцієнт кореляції Пірсона розраховується за формулою:

   r_{xy} = \frac {\sum_{i=1}^{m} \left( x_i-\bar{x} \right)\left( y_i-\bar{y} \right)}{\sqrt{\sum_{i=1}^{m} \left( x_i-\bar{x} \right)^2 \sum_{i=1}^{m} \left( y_i-\bar{y} \right)^2}} = \frac {cov(x,y)}{\sqrt{s_x^2 s_y^2}},

де \bar{x}, \bar{y} – вибіркові середні x^m і y^m, s_x^2, s_y^2 – вибіркові дисперсії, r_{xy} \in \left[-1,1\right].

Інтерпретація[ред.ред. код]

Коефіцієнт кореляції набуває значень від -1 до 1. Значення +1 означає, що залежність між X та Y є лінійною, і всі точки функції лежать на прямій, яка відображає зростання Y при зростанні X. Значення -1 означає, що всі точки лежать на прямій, яка відображає зменшення Y при зростанні X. Якщо коефіцієнт кореляції Пірсона = 0, то лінійної кореляції між змінними немає.

Значущість кореляції[ред.ред. код]

Кореляція Негативна Позитивна
Відсутня −0.09 до 0.0 0.0 до 0.09
Низька −0.3 до −0.1 0.1 до 0.3
Середня −0.5 до −0.3 0.3 до 0.5
Висока −1.0 до −0.5 0.5 до 1.0

Різні автори [3][4] пропонують різні підходи до інтерпретації значення коефіцієнта кореляції. В той же час, всі критерії є певною мірою умовними, і не повинні трактуватися надто прискіпливо.[4] Інтерпретація кореляції залежить від контексту та мети. Наприклад, показник кореляції 0.9 може бути дуже низьким у випадку дослідження законів фізики з використанням високоякісного обладнання, проте може трактуватися як дуже високий в гуманітарних науках, де існує вплив багатьох інших факторів.

Відстань Пірсона[ред.ред. код]

Показник відстані для двох змінних, відомий як "відстань Пірсона", може бути обчислений з коефіцієнта кореляції як:[5]

d_{X,Y}=1-\rho_{X,Y}.

З огляду на те, що коефіцієнт кореляції Пірсона набуває лежить в множині [-1;+1], відстань Пірсона може дорівнювати [0;2].

Коефіцієнт кореляції Пірсона і метод найменших квадратів[ред.ред. код]

Квадрат коефіцієнта кореляції, що є коефіцієнтом детермінації, обчислює частку варіативності змінної Y, яка пояснюється зміною X в простій лінійній регресії. Загальна варіація показників Y_i відносно їх середнього значення може бути представлена наступним чином:

   \sum_i (Y_i - \bar{Y})^2 = \sum_i (Y_i-\hat{Y}_i)^2 + \sum_i (\hat{Y}_i-\bar{Y})^2, 

де \hat{Y}_i є середньозваженими значеннями регресії. Застосувавши математичні перетворення, отримаємо:

   1 = \frac{\sum_i (Y_i-\hat{Y}_i)^2}{\sum_i (Y_i - \bar{Y})^2} + \frac{\sum_i (\hat{Y}_i-\bar{Y})^2}{\sum_i (Y_i - \bar{Y})^2}. 

Два доданки зверху показують частку варіативності Y, яка пояснюється зміною X (справа) і ту, яка не пояснюється зміною X (зліва).

Далі, ми застосуємо умову методу найменших квадратів, за якою значення коваріації між \hat{Y}_i і Y_i-\hat{Y}_i дорівнює нулю. Таким чином, рівняння кореляції між спостережними та середньозваженими значеннями регресії можуть бути записані так:

\begin{align} r(Y,\hat{Y}) &= \frac{\sum_i(Y_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\ &= \frac{\sum_i(Y_i-\hat{Y}_i+\hat{Y}_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\ &= \frac{ \sum_i [(Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) +(\hat{Y}_i-\bar{Y})^2 ]}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\ &= \frac{ \sum_i (\hat{Y}_i-\bar{Y})^2 }{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\ &= \sqrt{\frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}}. \end{align}

Звідси

   r(Y,\hat{Y})^2 = \frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}

Це рівняння показує частку варіативності Y, яка є лінійною функцією X.

Обчислення зваженої кореляції[ред.ред. код]

Проведені спостереження мають різні ступені важливості, які можуть бути виражені через вектор ваги w. Для обчислення кореляції між векторами x та y з використанням вектора ваги w (для будь-якого n),[6][7]

  • Зважена середня:
\operatorname{m}(x; w) = {\sum_i w_i x_i \over \sum_i w_i}.
  • Зважена коваріація:
\operatorname{cov}(x,y;w) = {\sum_i w_i (x_i - \operatorname{m}(x; w)) (y_i - \operatorname{m}(y; w)) \over \sum_i w_i }.
  • Зважена кореляція:
\operatorname{corr}(x,y;w) = {\operatorname{cov}(x,y;w) \over \sqrt{\operatorname{cov}(x,x;w) \operatorname{cov}(y,y;w)}}.

Література[ред.ред. код]

  1. J. L. Rodgers and W. A. Nicewander. Thirteen ways to look at the correlation coefficient. The American Statistician, 42(1):59–66, February 1988.
  2. Stigler, Stephen M. (1989). «Francis Galton's Account of the Invention of Correlation». Statistical Science 4 (2). с. 73–79. doi:10.1214/ss/1177012580. JSTOR 2245329. 
  3. A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1, Wydawnictwo Niezalezne: 5–21, December 2010, ISBN 978-83-915272-9-0
  4. а б Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)
  5. Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (pp. 110) ISBN 1-4020-8879-5
  6. http://sci.tech-archive.net/Archive/sci.stat.math/2006-02/msg00171.html
  7. A MATLAB Toolbox for computing Weighted Correlation Coefficients