Коефіцієнт кореляції Пірсона

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Приклади діаграм розсіву з різними значеннями коефіцієнту кореляції (r)

Коефіцієнт кореляції Пірсона (позначають «r») — в статистиці, показник кореляції (лінійної залежності) між двома змінними X та Y, який набуває значень від −1 до +1 включно. Він широко використовується в науці для вимірювання ступеня лінійної залежності між двома змінними. Показник був розроблений Карлом Пірсоном (Karl Pearson) зі схожої ідеї, представленої Френсісом Гальтоном в 1880-х рр.[1][2]

Визначення[ред.ред. код]

Коефіцієнт кореляції Пірсона між двома змінними дорівнює коваріації двох змінних, або сумі добутків відхилень, поділеній на добуток їх стандартних відхилень. Нехай, є дві вибірки Коефіцієнт кореляції Пірсона розраховують за формулою:

де  — вибіркові середні і  — вибіркові дисперсії, .

Інтерпретація[ред.ред. код]

Коефіцієнт кореляції набуває значень від −1 до 1. Значення +1 означає, що залежність між X та Y є лінійною, і всі точки функції лежать на прямій, яка відображає зростання Y при зростанні X. Значення −1 означає, що всі точки лежать на прямій, яка відображає зменшення Y при зростанні X. Якщо коефіцієнт кореляції Пірсона = 0, то саме лінійної кореляції між змінними немає.

Значущість кореляції[ред.ред. код]

Кореляція Негативна Позитивна
Відсутня −0.09 до 0.0 0.0 до 0.09
Низька −0.3 до −0.1 0.1 до 0.3
Середня −0.5 до −0.3 0.3 до 0.5
Висока −1.0 до −0.5 0.5 до 1.0

Різні автори[3][4] пропонують різні підходи до інтерпретації значення коефіцієнта кореляції. В той же час, всі критерії є певною мірою умовними, і не повинні трактуватися надто прискіпливо.[4] Інтерпретація кореляції залежить від контексту та мети. Наприклад, показник кореляції 0.9 може бути дуже низьким у випадку дослідження законів фізики з використанням високоякісного обладнання, проте може трактуватися як дуже високий в гуманітарних науках, де існує вплив багатьох інших факторів.

Відстань Пірсона[ред.ред. код]

Показник відстані для двох змінних, відомий як «відстань Пірсона», може бути обчислений з коефіцієнта кореляції як:[5]

З огляду на те, що коефіцієнт кореляції Пірсона набуває лежить в множині [-1;+1], відстань Пірсона може дорівнювати [0;2].

Коефіцієнт кореляції Пірсона і метод найменших квадратів[ред.ред. код]

Квадрат коефіцієнта кореляції, що є коефіцієнтом детермінації, обчислює частку варіативності змінної Y, яка пояснюється зміною X в простій лінійній регресії. Загальна варіація показників відносно їх середнього значення може бути представлена наступним чином:

,

де є середньозваженими значеннями регресії. Застосувавши математичні перетворення, отримаємо:

Два доданки зверху показують частку варіативності Y, яка пояснюється зміною X (справа) і ту, яка не пояснюється зміною X (зліва).

Далі, ми застосуємо умову методу найменших квадратів, за якою значення коваріації між і дорівнює нулю. Таким чином, рівняння кореляції між спостережними та середньозваженими значеннями регресії можуть бути записані так:

Звідси

Це рівняння показує частку варіативності Y, яка є лінійною функцією X.

Обчислення зваженої кореляції[ред.ред. код]

Проведені спостереження мають різні ступені важливості, які можуть бути виражені через вектор ваги w. Для обчислення кореляції між векторами x та y з використанням вектора ваги w (для будь-якого n),[6][7]

  • Зважена середня:
  • Зважена коваріація:
  • Зважена кореляція:

Примітки[ред.ред. код]

  1. J. L. Rodgers and W. A. Nicewander. Thirteen ways to look at the correlation coefficient. The American Statistician, 42(1):59-66, February 1988.
  2. Stigler, Stephen M. (1989). Francis Galton's Account of the Invention of Correlation. Statistical Science 4 (2). с. 73–79. doi:10.1214/ss/1177012580. JSTOR 2245329. 
  3. A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1, Wydawnictwo Niezalezne: 5-21, December 2010, ISBN 978-83-915272-9-0
  4. а б Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)
  5. Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (pp. 110) ISBN 1-4020-8879-5
  6. http://sci.tech-archive.net/Archive/sci.stat.math/2006-02/msg00171.html
  7. A MATLAB Toolbox for computing Weighted Correlation Coefficients

Див. також[ред.ред. код]


Сигма Це незавершена стаття з математики.
Ви можете допомогти проекту, виправивши або дописавши її.