Коефіцієнт кореляції рангу Кендала

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

У статистиці коефіцієнт кореляції рангу Кендала, як правило, називають   \tau  -коефіцієнт (тау-коефіцієнт) Кендла. Він використовується у статистиці для вимірювання зв'язку між двома величинами.   \tau  -тест — це непараметричний тест статистичних гіпотез залежності на основі   \tau  -коефіцієнта. Зокрема, він є мірою рангової кореляції, тобто подібності упорядкування даних, коли вони упорядкуванні за своєю величиною. Цей коефіцієнт названий в честь Моріса Кендала, який розробив теорію, в якій використовував цей коефіцієнт, в 1938 році, хоча Густав Фехнер запропонував аналогічну міру в контексті часових рядів ще в 1897 році.

Означення[ред.ред. код]

Нехай  (x_1, y_1), (x_2, y_2), \dots , (x_n, y_n)  — набір спостережень спільних випадкових величин X і Y відповідно, так що всі значення (xк) і (yк) не є однаковими для будь якого k=1..n. Будь-яка пара спостережень (xi, yi) і (xj, yj) називається узгодженою, якщо узгоджені ряди для обох елементів : тобто, якщо xi> xj та yi> yj або якщо xi <xj та yi <yj . Вони називаються неузгодженими (або дисонуючими), якщо xi> xj та yi< yj або якщо xi <xj та yi >yj. Якщо xi =xj або yi = yj, то пара не є ні узгодженою ні неузгодженою.

  \tau   — коефіцієнт Кендалла визначається наступним чином:

\tau =\frac {s_1-s_2}{\frac 12 n(n-1)}

Де  s_1  — кількість узгоджених пар,  s_2  — кількість неузгоджених пар.
Властивості
Знаменник — це загальна кількість пар, таким чином коефіцієнт знаходить в діапазоні -1 \leqslant \tau \leqslant 1. Якщо узгодженість між двома величинами X та Y є ідеальною (тобто дві величини збігаються), то коефіцієнт має значення 1. Якщо розбіжність між двома величинами X та Y є ідеальною (тобто вони мають різні порядки зростання), то коефіцієнт дорівнює −1. Якщо X та Y незалежні, то коефіцієнт буде прямувати до нуля.

Перевірка гіпотези[ред.ред. код]


Коефіцієнт рангу Кендала часто використовується для статистичної оцінки в перевірці статистичних гіпотез для визначення чи можуть дві змінні розглядатись як статистично залежні. Цей тест є непараметричний, так як він не залежить від будь-яких припущень про розподіл X або Y або розподіл (x, y). При нульовій гіпотезі незалежності X і Y, вибірковий розподіл τ має очікуване значення -нуль. Точний розподіл не може бути охарактеризований з точки зору спільних розподілів, але може вираховуватись для малих вибірок; для більших вибірок, поширеним є використання наближення для нормального розподілу з математичним сподіванням рівним нулю і дисперсією випадкової величини.

Облік зв’язків[ред.ред. код]

Пара {(xi, yi), (xj, yj)}, як кажуть, зв'язані, якщо xi = xi або yi=yj; зв'язні пари не є ні узгодженими ні неузгодженими. Якщо пов’язанні пари виникають в даних, коефіцієнт може бути змінений декількома способами, щоб тримати його в діапазоні [-1, 1]:

  \tau  -a

Статистична величина   \tau  -a перевіряє міру узгодженості таблиці всіх пар (xi, yi),. Обидві змінні повинні бути порядковим.

  \tau  -b

Статистична величина   \tau  -b , на відміну від   \tau  -a, вносить зміни в зв’язки. Значення   \tau  -b знаходяться в діапазоні від -1 до +1. Нульове значення свідчить про відсутність узгодженості.   \tau  -b коефіцієнт визначається таким чином:

\tau_B=\frac{n_c-n_d}{\sqrt{(n_0-n_1)(n_0-n_2)} }

Де:

\begin{align} n_0 &= n(n-1)/2 \\ n_1 &= \sum_i t_i(t_i-1)/2 \\ n_2 &= \sum_j u_j(u_j-1)/2 \end{align}

n_{c} = кількість узгоджених пар
n_{d} = кількість неузгоджених пар
t_{i} = кількість зв’язків величин в i – тій групі зв’язків першої величини
u_{j} = зв’язків величин в j– тій групі зв’язків другої величини

  \tau  -c

  \tau  -c відрізняється від   \tau  -b тим, що більш підходить для прямокутних ніж для квадратних таблиць.

Приклад[ред.ред. код]


Коли дві величини є статистично незалежними, то розподіл   \tau  не можна легко описати виходячи з відомих розподілів. Проте, для   \tau_A  наступна величина -   \Zeta_A  - наближено розподілена у вигляді нормального розподілу, якщо зміні є статистично незалежними:
z_A=\frac{3(n_c-n_d)}{\sqrt{n(n-1)(2n+5)/2} }


Таким чином, щоб перевірити чи є дві змінні залежними, обчислюють   \Zeta_A  та знаходять кумулятивну ймовірність для стандартного нормального розподілу на -|\Zeta_A  |.

  \Zeta_B  має той самий розподіл, що й   \tau_B  розподіл і приблизно дорівнює стандартному нормальному розподілу, коли величини статистично незалежні:

\Z_B = \frac{n_c-n_d}{\sqrt{v}}\,


Де

\begin{array}{ccl}
v & = & (v_0 - v_t - v_u)/18 + v_1 + v_2 \\
v_0 & = & n (n-1) (2n+5) \\
v_t & = & \sum_i t_i (t_i-1) (2 t_i+5)\\
v_u & = & \sum_j u_j (u_j-1)(2 u_j+5) \\
v_1 & = & \sum_i t_i (t_i-1) \sum_j u_j (u_j-1) / (2n(n-1)) \\
v_2 & = & \sum_i t_i (t_i-1) (t_i-2) \sum_j u_j (u_j-1) (u_j-2) / (9 n (n-1) (n-2))
\end{array}

Посилання[ред.ред. код]