Часткова кореляція

Не плутати з коефіцієнтом детермінації.

В теорії ймовірностей і статистиці, часткова кореляція вимірює ступінь зв'язку між двома випадковими величинами, коли певна множина випадкових величин видаляється. Якщо потрібно визначити чи є числова залежність між двома змінними, то використання коефіцієнту кореляції може привести до встановлення помилкового відношення, якщо існує змішувальна змінна, яка пов'язана з цими змінними. Цієї інформації, яка вводить в оману, можна уникнути, якщо контролювати змішану змінну, що досягається шляхом обчислення коефіцієнта часткової кореляції. Саме це є мотивацією для включення інших змінних до правої сторони в множинній регресії; але в той час як множинна регресія дає об'єктивні результати для ефект розміру^[en], вона не дає числового значення міри зв'язку між двома змінними.

Формальне визначення[ред. | ред. код]

Формально, часткова кореляція між X і Y, яка визначається множиною n керуючих змінних Z = {Z₁, Z₂, …, Z_n}, записується як ρ_XY·Z, є кореляцією між залишками e_X та e_Y, як результат лінійної регресії на X із Z та Y з Z, відповідно. Часткова кореляція першого порядку (тобто, при n = 1) є різницею між кореляцією і добутком змінених кореляцій, поділену на добуток коефіцієнтів відчуження змінених кореляцій. Інформація про коефіцієнт відчуження, та його зв'язок із дисперсією на основі кореляції доступні в книзі Гілфорда (1973, ст. 344—345)^[1].

Обчислення[ред. | ред. код]

За допомогою лінійної регресії[ред. | ред. код]

Простий спосіб обчислити часткову кореляцію для деяких даних полягає у розв'язанні двох пов'язаних задач лінійної регресії, отримати залишки і обчислити кореляцію між ними. Нехай X та Y, будуть, як зазначено вище, випадковими величинами, що приймають дійсні значення, і нехай Z буде n-мірним вектором значень випадкової величини. Будемо писати x_i, y_i та z_i для позначення i-того з N н.о.р. спостережень деякого спільного розподілу ймовірностей над дійсними випадковими величинами X, Y та Z, де z_i збільшуються на 1, для того, щоб у лінійній регресії була присутня стала (тобто, буде не нульовий доданок). Розв'язання лінійної задачі регресії зводиться до знаходження (n+1)-мірних коефіцієнтів векторів $\mathbf {w} _{X}^{*}$ і $\mathbf {w} _{Y}^{*}$ таких, що

\mathbf {w} _{X}^{*}=\arg \min _{\mathbf {w} }\left\{\sum _{i=1}^{N}(x_{i}-\langle \mathbf {w} ,\mathbf {z} _{i}\rangle )^{2}\right\}

\mathbf {w} _{Y}^{*}=\arg \min _{\mathbf {w} }\left\{\sum _{i=1}^{N}(y_{i}-\langle \mathbf {w} ,\mathbf {z} _{i}\rangle )^{2}\right\}

де N означає число спостережень і $\langle \mathbf {w} ,\mathbf {v} \rangle$ позначає скалярний добуток між векторами w and v. Слід зазначити, що в деяких джерелах регресія включає в себе постійний член, так що матриця z буде мати додатковий стовпчик з одиниць.

Залишки будуть

e_{X,i}=x_{i}-\langle \mathbf {w} _{X}^{*},\mathbf {z} _{i}\rangle

e_{Y,i}=y_{i}-\langle \mathbf {w} _{Y}^{*},\mathbf {z} _{i}\rangle

і приклад часткової кореляції обчислюється за звичайною формулою для вибіркової кореляції, але між цими новими отриманими значеннями.

{\hat {\rho }}_{XY\cdot \mathbf {Z} }={\frac {N\sum _{i=1}^{N}e_{X,i}e_{Y,i}-\sum _{i=1}^{N}e_{X,i}\sum _{i=1}^{N}e_{Y,i}}{{\sqrt {N\sum _{i=1}^{N}e_{X,i}^{2}-\left(\sum _{i=1}^{N}e_{X,i}\right)^{2}}}~{\sqrt {N\sum _{i=1}^{N}e_{Y,i}^{2}-\left(\sum _{i=1}^{N}e_{Y,i}\right)^{2}}}}}

={\frac {N\sum _{i=1}^{N}e_{X,i}e_{Y,i}}{{\sqrt {N\sum _{i=1}^{N}e_{X,i}^{2}}}~{\sqrt {N\sum _{i=1}^{N}e_{Y,i}^{2}}}}}.

У першому виразі три доданки після знаків мінус всі рівні 0, оскільки кожен містить суму залишків регресії звичайного методу найменших квадратів^[en].

За допомогою рекурсивної формули[ред. | ред. код]

Це може бути ресурсномістким у обчислюванні задач лінійної регресії. Насправді, n-порядок часткової кореляції (тобто з |Z| = n) може бути легко обчислено з трьох (n—1)-го порядку часткової кореляції. Нульовий порядок часткової кореляції ρ_XY·Ø визначається як звичайний коефіцієнт кореляції ρ_XY.

Для будь-якого $Z_{0}\in \mathbf {Z} ,$ виконується

\rho _{XY\cdot \mathbf {Z} }={\frac {\rho _{XY\cdot \mathbf {Z} \setminus \{Z_{0}\}}-\rho _{XZ_{0}\cdot \mathbf {Z} \setminus \{Z_{0}\}}\rho _{Z_{0}Y\cdot \mathbf {Z} \setminus \{Z_{0}\}}}{{\sqrt {1-\rho _{XZ_{0}\cdot \mathbf {Z} \setminus \{Z_{0}\}}^{2}}}{\sqrt {1-\rho _{Z_{0}Y\cdot \mathbf {Z} \setminus \{Z_{0}\}}^{2}}}}}.

Наївно реалізації даного розрахунку як рекурсивний алгоритм експоненту тимчасової складності. Однак, це обчислення має характеристику перекривних підзадач^[en], таких, що за допомогою динамічного програмування або просто кешування результатів рекурсивних викликів призводить до складності ${\mathcal {O}}(n^{3})$ .

Примітка: у разі, якщо Z є єдиною змінною, це призводить до:

\rho _{XY\cdot Z}={\frac {\rho _{XY}-\rho _{XZ}\rho _{ZY}}{{\sqrt {1-\rho _{XZ}^{2}}}{\sqrt {1-\rho _{ZY}^{2}}}}}.

Використовуючи матрицю інверсії[ред. | ред. код]

За час ${\mathcal {O}}(n^{3})$ , інший підхід дозволяє всім частковим кореляціям обчислюватися між будь-якими двома змінними X_i та X_j у множині V потужності n, враховуючи всі інші, тобто $\mathbf {V} \setminus \{X_{i},X_{j}\}$ , якщо кореляційна матриця (або матриця коваріацій) Ω = (ρ_{X_iX_j}) є позитивно визначеною і, отже, оборотною. Якщо ми визначаємо P = (p_ij) = Ω⁻¹, ми маємо:

\rho _{X_{i}X_{j}\cdot \mathbf {V} \setminus \{X_{i},X_{j}\}}=-{\frac {p_{ij}}{\sqrt {p_{ii}p_{jj}}}}.

Інтерпретація[ред. | ред. код]

Геометрична інтерпретація часткової кореляції для випадку n=3 зразків і, таким чином, 2-мірної гіперплощини

Геометрична[ред. | ред. код]

Нехай три змінні X, Y, Z (де Z — це «контрольна» або «Додаткова змінна») вибирається з спільного розподілу ймовірностей за n змінних V. Далі vi, 1 ≤ i ≤ N, де N це n-мірні незалежні однаково розподілені вибірки, взяті із загального розподілу ймовірностей над V. Потім ми розглянемо в N-мірних векторів х (утворений послідовністю значень х за зразками), y (утворену значеннями Y) i z (утворену значеннями Z).

Можна показати, що залишки R_Х, йдуть від лінійної регресії X на Z, якщо також розглядати як N-мірний вектор r_Х, мають нульовий скалярний добуток з вектором z породженною Z. Це означає, що вектор залишків лежить на (n-1)-мірною [ гіперплощиною] Sz, яка перпендикулярна до z.

Те ж саме відноситься до залишків RY породженним вектора rY. Якщо бажана часткова кореляція тоді косинус кута φ між проєкціями rX і rY х і y, відповідно, на гіперплощину, перпендикулярну Z.^[2]^{:ch. 7}

Як тест умовної незалежності[ред. | ред. код]

За умови, що всі задіяні змінні це багатовимірні Гауссівського, часткової кореляції ρ_ху·Zдорівнюють нулю, тоді і тільки тоді, коли х є умовно незалежноюY даного Z.^[3] Ця властивість не використовується в загальному випадку.

Щоб перевірити, що зразок часткової кореляції ${\hat {\rho }}_{XY\cdot \mathbf {Z} }$ зникає, використовують Z-перетворення в часткові кореляції Фішера :

z({\hat {\rho }}_{XY\cdot \mathbf {Z} })={\frac {1}{2}}\ln \left({\frac {1+{\hat {\rho }}_{XY\cdot \mathbf {Z} }}{1-{\hat {\rho }}_{XY\cdot \mathbf {Z} }}}\right).

У нульовій гіпотезі є $H_{0}:{\hat {\rho }}_{XY\cdot \mathbf {Z} }=0$ для тестування проти двох хвостових альтернатив $H_{A}:{\hat {\rho }}_{XY\cdot \mathbf {Z} }\neq 0$ . Ми відкидаємо н₀ з рівнем значущості α , якщо:

{\sqrt {N-|\mathbf {Z} |-3}}\cdot |z({\hat {\rho }}_{XY\cdot \mathbf {Z} })|>\Phi ^{-1}(1-\alpha /2),

де Φ(·) є кумулятивною функцією розподілу з Гауссовим розподілом з нульовим значенням і одиницею стандартного відхилення, та N — це розмір вибірки. Зверніть увагу, що z-перетворення є приблизними і, що фактичний розподіл вибірки (частковий) коефіцієнту кореляції є не однозначним. Однак точний T-тест, заснований на поєднанні коефіцієнту часткової регресії, частковому коефіцієнті кореляції і частковій дисперсії є доступними.^[4]

Розподіл вибірки часткової кореляція було описано Фішером.^[5]

Напівчасткова кореляція (часткова кореляції)[ред. | ред. код]

Напівчасткова (часткова) кореляція статистики аналогічна частковій кореляції статистики. Обидва порівняння варіантів двох змінних після того, як певні фактори, не контрольовані, але для обчислення напівчасткової кореляції, одна займає третю змінну константою для будь-якого Х або Y , але не обидва, в той час як для часткової кореляції, одна займає третю змінну константою для обох.^[6] У напівчастковій кореляції порівнюються унікальні варіації однієї змінної(з витягнутою варіацією, пов'язаною з Z змінною (ами)), з нефільтрованої зміни іншої, в той час як часткова кореляція порівнює унікальні варіації однієї змінної унікальною варіацією іншого.

Напівчасткову (часткову) кореляцію можна розглядати як більш практично відповідною, «так як вона масштабується (тобто відноситься) загальною мінливістю в залежності (відповіді) змінної».^[7] з іншого боку, вона менш теоретично відповідна, тому що вона менш чіткіше уявляє роль унікального внеску незалежної змінної.

Абсолютне значення напівчасткової кореляції Х з Y завжди менше або дорівнює часткової кореляції X з Y. Причина полягає в наступному: припустимо, що співвідношення X з Z видалено з Х, даючи залишковий вектор r_Х . При розрахунку напівчасткової кореляції Y і досі містить унікальну дисперсію і дисперсію через її асоціацію з Z. Але r_Х , будучи корельованним з Z, можуть пояснити тільки деякі з унікальної частини дисперсії у , а не частини, яка належить до Z. На відміну від цього, з частковою кореляцією, тільки ry (частина дисперсії у , яка не має відношення до Z) буде пояснена так, що там менше дисперсія типу r_Х не можна пояснити.

Використання в аналізі часових рядів[ред. | ред. код]

В аналіз часових рядів, у приватній автокореляційній функції (іноді «часткова кореляційна функція») часові ряди визначаються, для лагу h, як

\varphi (h)=\rho _{X_{0}X_{h}\,\cdot \,\{X_{1},\,\dots \,,X_{h-1}\}}.

Ця функція використовується для визначення відповідної довжини лагу авторегресії.

Див. також[ред. | ред. код]

Лінійна регресія

Примітки[ред. | ред. код]

↑ Guilford J. P., Fruchter B. (1973). Fundamental statistics in psychology and education. Tokyo: McGraw-Hill Kogakusha, LTD.
↑ Rummel, R. J. (1976). Understanding Correlation. Архів оригіналу за 1 березня 2021. Процитовано 10 грудня 2016.
↑ Baba, Kunihiro; Ritei Shibata; Masaaki Sibuya (2004). Partial correlation and conditional correlation as measures of conditional independence. Australian and New Zealand Journal of Statistics. 46 (4): 657—664. doi:10.1111/j.1467-842X.2004.00360.x. {{cite journal}}: Вказано більш, ніж один |DOI= та |doi= (довідка); Вказано більш, ніж один |author2= та |last2= (довідка); Вказано більш, ніж один |author3= та |last3= (довідка)
↑ Kendall MG, Stuart A. (1973) The Advanced Theory of Statistics, Volume 2 (3rd Edition), ISBN 0-85264-215-6, Section 27.22
↑ Fisher, R.A. (1924). The distribution of the partial correlation coefficient. Metron. 3 (3–4): 329—332.
↑ Partial and Semipartial Correlation. luna.cas.usf.edu (англ.). Архів оригіналу за 6 лютого 2014. Процитовано 10 грудня 2016.
↑ StatSoft, Inc. (2010). "Semi-Partial (or Part) Correlation", Electronic Statistics Textbook. Tulsa, OK: StatSoft, accessed January 15, 2011.

Посилання[ред. | ред. код]

Prokhorov, A.V. (2001), Partial correlation coefficient, у Hazewinkel, Michiel (ред.), Математична енциклопедія, Springer, ISBN 978-1-55608-010-4
What is a partial correlation?
Mathematical formulae in the «Description» section of the IMSL Numerical Library PCORR routine
A three-variable example

[1] Guilford J. P., Fruchter B. (1973). Fundamental statistics in psychology and education. Tokyo: McGraw-Hill Kogakusha, LTD.

[2] Rummel, R. J. (1976). Understanding Correlation. Архів оригіналу за 1 березня 2021. Процитовано 10 грудня 2016.

[3] Baba, Kunihiro; Ritei Shibata; Masaaki Sibuya (2004). Partial correlation and conditional correlation as measures of conditional independence. Australian and New Zealand Journal of Statistics. 46 (4): 657—664. doi:10.1111/j.1467-842X.2004.00360.x. {{cite journal}}: Вказано більш, ніж один |DOI= та |doi= (довідка); Вказано більш, ніж один |author2= та |last2= (довідка); Вказано більш, ніж один |author3= та |last3= (довідка)

[4] Kendall MG, Stuart A. (1973) The Advanced Theory of Statistics, Volume 2 (3rd Edition), ISBN 0-85264-215-6, Section 27.22

[5] Fisher, R.A. (1924). The distribution of the partial correlation coefficient. Metron. 3 (3–4): 329—332.

[6] Partial and Semipartial Correlation. luna.cas.usf.edu (англ.). Архів оригіналу за 6 лютого 2014. Процитовано 10 грудня 2016.

[7] StatSoft, Inc. (2010). "Semi-Partial (or Part) Correlation", Electronic Statistics Textbook. Tulsa, OK: StatSoft, accessed January 15, 2011.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Часткова кореляція

Зміст

Формальне визначення[ред. | ред. код]

Обчислення[ред. | ред. код]

За допомогою лінійної регресії[ред. | ред. код]

За допомогою рекурсивної формули[ред. | ред. код]

Використовуючи матрицю інверсії[ред. | ред. код]

Інтерпретація[ред. | ред. код]

Геометрична[ред. | ред. код]

Як тест умовної незалежності[ред. | ред. код]

Напівчасткова кореляція (часткова кореляції)[ред. | ред. код]

Використання в аналізі часових рядів[ред. | ред. код]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

Посилання[ред. | ред. код]

Навігаційне меню

Часткова кореляція

Формальне визначення[ред. | ред. код]

Обчислення[ред. | ред. код]

За допомогою лінійної регресії[ред. | ред. код]

За допомогою рекурсивної формули[ред. | ред. код]

Використовуючи матрицю інверсії[ред. | ред. код]

Інтерпретація[ред. | ред. код]

Геометрична[ред. | ред. код]

Як тест умовної незалежності[ред. | ред. код]

Напівчасткова кореляція (часткова кореляції)[ред. | ред. код]

Використання в аналізі часових рядів[ред. | ред. код]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

Посилання[ред. | ред. код]

Навігаційне меню

Пошук