Часткова кореляція

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

В теорії ймовірностей і статистиці, часткова кореляція вимірює ступінь зв'язку між двома випадковими величинами, з ефектом набору контрольних випадкових величин видалення.

Формальне визначення[ред.ред. код]

Формально, часткова кореляція між X і Y, задана множиною n керуючими змінними  Z = {Z1, Z2, …, Zn}, написана ρхуz, є  кореляцією між залишками RХ і Ry у результаті лінійної регресії на Х із Z та Y з Z, відповідно. Часткова кореляція першого порядку (тобто при N=1) являє собою різницю між кореляцією і добутком змінної кореляції, поділену на добуток коефіцієнтів відчуженими знімними кореляціями. Цей коефіцієнт відчуження, та його зв'язок із спільною дисперсією на основі кореляції доступні в Гілфорді (1973, ст. 344—345).[1]

Розрахунок[ред.ред. код]

За допомогою лінійної регресії[ред.ред. код]

Простий спосіб обчислити приклад часткової кореляції для деяких даних полягає у вирішені двох проблем пов'язаних з лінійною регресією, отримання залишків і обчисленням кореляції між залишками. Нехай х і у, будуть, як зазначено вище, випадкові величини, що приймають дійсні значення, і нехай Z буде n-мірний вектор — випадкова величина. Якщо ми пишемо хi, yi i zi позначимо N ітої незалежних і однаково розподілених вибірок деякого спільного розподілу ймовірностей над реальними випадковими величинами х, у і z, розв'язання лінійної задачі регресії зводиться до знаходження n-мірних коефіцієнтів векторів  і такі, що

N означає число виборок і скалярний добуток між векторами v та w. Слід зазначити, що в деяких складах регресія включає в себе постійний член, так що матриця  буде мати додатковий стовпець з одиниць.

Залишок потім

і приклад часткової кореляції обчислюється за звичайною формулою для вибіркової кореляції, але між цими новими отриманими значеннями. 

Використовуючи рекурсивну формулу[ред.ред. код]

 Це може бути ресурсномістким у обчислюванні задач лінійної регресії. Насправді, n-порядок часткової кореляції (тобто з |Z| = n) може бути легко обчислено з трьох (n — 1) — го порядку часткової кореляції. Нульовий порядок часткової кореляції ρхуØ визначається як звичайний коефіцієнт кореляції ρху.

Наївно реалізації даного розрахунку як рекурсивний алгоритм  експоненту тимчасової складності. Однак, це обчислення має характеристику перекриваючих підзадач, таких, що за допомогою динамічного програмування або просто кешування результатів рекурсивних викликів призводить до складності .

Примітка: у разі, якщо Z є єдиною змінною, це призводить до:

Використовуючи матрицю інверсії[ред.ред. код]

В часу, інший підхід дозволяє всім частковим кореляціям обчислюватися між будь-якими двома змінними Xi і ХJ у сукупності з V потужності n, враховуючи всі інші, тобто якщо кореляційна матриця (або матриця коваріацій) Ω = (ωІЖ), де ωпрограми ij = ρхiхi, є позитивно визначеною і, отже, оборотною. Якщо ми визначаємо P = Ω−1, ми маємо:

Інтерпретація[ред.ред. код]

Геометрична інтерпретація часткової кореляції для випадку n=3 зразків і, таким чином, 2-мірної гіперплощини

Геометрична[ред.ред. код]

Нехай три змінні X, Y, Z (де Z — це «контрольна» або «Додаткова змінна») вибирається з спільного розподілу ймовірностей за n змінних V. Далі vi, 1 ≤ i ≤ N, де N це n-мірніНезалежні однаково розподілені випадкові величини незалежні однаково розподілені вибірки, взяті із загального розподілу ймовірностей над V. Потім ми розглянемо в N-мірних векторів х (утворений послідовністю значень х за зразками), y (утворену значеннями Y) i z (утворену значеннями Z).

Можна показати, що залишки RХ , йдуть від лінійної регресії X на Z, якщо також розглядати як N-мірний вектор rХ, мають нульовий скалярний добуток з вектором z породженною Z. Це означає, що вектор залишків лежить на (n-1)-мірною [ гіперплощиною] Sz, яка перпендикулярна до z.

Те ж саме відноситься до залишків RY породженним вектора rY. Якщо бажана часткова кореляція тоді косинус кута φ між проекціями rX і rY  х і y, відповідно, на гіперплощину, перпендикулярну Z.[2]:ch. 7

Як тест умовної незалежності[ред.ред. код]

За умови, що всі задіяні змінні це багатовимірні Гауссівського, часткової кореляції ρху·Z дорівнюють нулю, тоді і тільки тоді, коли х є умовно незалежноюY даного Z.[3] Ця властивість не використовується в загальному випадку.

Щоб перевірити, що зразок часткової кореляції  зникає, використовують Z-перетворення в часткові кореляції Фішера :

У нульовій гіпотезі є для тестування проти двох хвостових альтернатив. Ми відкидаємо н0 з рівнем значущості α , якщо:

де Φ(·) є кумулятивною функцією розподілу з Гауссовим розподілом з нульовим значенням і одиницею стандартного відхилення, та N — це розмір вибірки. Зверніть увагу, що z-перетворення є приблизними і, що фактичний розподіл вибірки (частковий) коефіцієнту кореляції є не однозначним. Однак точний T-тест, заснований на поєднанні коефіцієнту часткової регресії, частковому коефіцієнті кореляції і частковій дисперсії є доступними.[4]

Розподіл вибірки часткової кореляція було описано Фішером.[5]

Напівчасткова кореляція (часткова кореляції)[ред.ред. код]

Напівчасткова (часткова) кореляція статистики аналогічна частковій кореляції статистики. Обидва порівняння варіантів двох змінних після того, як певні фактори, не контрольовані, але для обчислення напівчасткової кореляції, одна займає третю змінну константою для будь-якого Х або Y , але не обидва, в той час як для часткової кореляції, одна займає третю змінну константою для обох.[6] У напівчастковій кореляції порівнюються унікальні варіації однієї змінної(з витягнутою варіацією, пов'язаною з Z змінною (ами)), з нефільтрованої зміни іншої, в той час як часткова кореляція порівнює унікальні варіації однієї змінної унікальною варіацією іншого.

Напівчасткову (часткову) кореляцію можна розглядати як більш практично відповідною, « так як вона масштабується (тобто відноситься) загальною мінливістю в залежності (відповіді) змінної.». [7] з іншого боку, вона менш теоретично відповідна, тому що вона менш чіткіше уявляє роль унікального внеску незалежної змінної.

Абсолютне значення напівчасткової кореляції Х з Y завжди менше або дорівнює часткової кореляції X з Y. Причина полягає в наступному: припустимо, що співвідношення X з Z видалено з Х, даючи залишковий вектор rХ . При розрахунку напівчасткової кореляції Y і досі містить унікальну дисперсію і дисперсію з-за її асоціації з Z. Але rХ , будучи корельованним з Z, можуть пояснити тільки деякі з унікальної частини дисперсії у , а не частини, яка належить до Z. На відміну від цього, з частковою кореляцією, тільки ry  (частина дисперсії у , яка не має відношення до Z) буде пояснена так, що там менше дисперсія типу  rХ не можна пояснити.

Використання в аналізі часових рядів[ред.ред. код]

В аналіз часових рядів, у приватній автокореляційній функції (іноді «часткова кореляційна функція») часові ряди визначаються, для лагу h, як

Ця функція використовується для визначення відповідної довжини лагу авторегресії.

Див. також[ред.ред. код]

Посилання[ред.ред. код]

  1. Guilford J. P., Fruchter B. (1973). Fundamental statistics in psychology and education. Tokyo: McGraw-Hill Kogakusha, LTD. 
  2. Rummel, R. J. (1976). Understanding Correlation. 
  3. Baba, Kunihiro; Ritei Shibata; Masaaki Sibuya (2004). Partial correlation and conditional correlation as measures of conditional independence. Australian and New Zealand Journal of Statistics 46 (4): 657–664. doi:10.1111/j.1467-842X.2004.00360.x.  Вказано більш, ніж один |author2= та |last2= (довідка); Вказано більш, ніж один |author3= та |last3= (довідка); Вказано більш, ніж один |DOI= та |doi= (довідка)
  4. Kendall MG, Stuart A. (1973) The Advanced Theory of Statistics, Volume 2 (3rd Edition), ISBN 0-85264-215-6, Section 27.22
  5. Fisher, R.A. (1924). The distribution of the partial correlation coefficient. Metron 3 (3–4): 329–332. 
  6. http://luna.cas.usf.edu/~mbrannic/files/regression/Partial.html.  Пропущений або порожній |title= (довідка)Пропущений або порожній |title= (довідка)
  7. StatSoft, Inc. (2010).

Посилання[ред.ред. код]