Коррелограмма

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Коррелограмма

На малюнку — графік, що показує 100 випадкових чисел з «прихованою» функцією синус, автокореляція (коррелограмма) рядів на дні.
Приклад коррелограми

В аналізі даних коррелограммою називається зображення статистики кореляції. Наприклад, в аналізі часових рядів, коррелограмма, також відома як автокорреляційна діаграма, являє собою графік зразка автокореляцій r_h\, , в порівнянні з h\, , (тимчасові затримки).
Якщо використовується взаємно-кореляційна функція, результат називають поперечною коррелограммою. Коррелограмми є широко використовуваним інструментом для перевірки випадковості в наборі даних. Випадковість знаходиться шляхом обчислення автокореляції для значень даних при різних часових затримках. Якщо випадково, такі автокореляцій будуть близькі до нуля для будь-яких і всіх розділень часових затримок. Якщо невипадкове, то один або більше з автокореляції буде істотно відмінна від нуля.
Крім того, коррелограмми використовують в ідентифікації системи для Box-Jenkins моделі авторегресії ковзкого середнього часового ряду. Автокореляція повинна бути близькою до нуль-випадковості, якщо аналітик не перевіряє випадковость, то справедливість багатьох з статистичних висновків попадає під сумнів. Коррелограмми є чудовим способом перевірки такої випадковості.

Застосування[ред.ред. код]

Коррелограми допомагають знайти відповіді на такі питання:

  • Чи дані насправді випадкові?
  • Чи спостереження пов'язані з суміжними спостереженнями?
  • Чи пов'язані спостереження з двічі зсунутим спостереженням?
  • Чи є спостережуваний часовий ряд — білим шумом?
  • Чи є спостережуваний часовий ряд — синусоїдою?
  • Чи є спостережуваний часовий ряд — авторегресивним?
  • Якою є модель, що підходить для спостереження за часовим рядом?
  • Чи є модель :
Y = \mathrm{constant} + \mathrm{error }
дійсною та достатньою?
  • Чи є значення s_{\bar{Y}}=s/\sqrt{N} дійсним?

Значення[ред.ред. код]

Випадковість (разом з фіксованою моделлю, фіксованими змінними та фіксованим розподілом) є одним з чотирьох припущень, які лежать в основі всіх процесів вимірювань. Припущення випадковості дуже важливе з таких причин:

  • Більшість стандартних статистичних тестів залежать від випадковості. Валідність результатів тесту прямо пов'язане з тим, чи є дійсною припущена випадковість.
  • Багато формул в статистиці залежать від випадковості припущення, найбільш поширеною є формула для визначення стандартного відхилення:


s_{\bar{Y}}=s/\sqrt{N}
, Де S — це стандартне відхилення даних. Не зважаючи на те, що ця формула дуже поширення, її результати не мають цінності, якщо непритримуватись припущеної випадковості.

  • Для одновимірних даних, за замовчуванням: 
Y = \mathrm{constant} + \mathrm{error }

Якщо дані не є випадковими, ця модель — некоректна та не є дійсною, тому оцінки параметрів стають безглуздими.

Оцінка автокореляцій[ред.ред. код]

Коефіцієнт автокореляції:


r_h = c_h/c_0 \,
,

де ch — автоковаріаційна функція.


c_h = \frac{1}{N}\sum_{t=1}^{N-h} \left(Y_t - \bar{Y}\right)\left(Y_{t+h} - \bar{Y}\right)

c0 — дисперсія функції


c_0 = \frac{1}{N}\sum_{t=1}^{N} \left(Y_t - \bar{Y}\right)^2

Отримане значення rh буде в діапазоні від −1 до 1.

Альтернативні оцінки[ред.ред. код]

Інколи використовують наступну формулу для автоваріації функції:


c_h = \frac{1}{N-h}\sum_{t=1}^{N-h} \left(Y_t - \bar{Y}\right)\left(Y_{t+h} - \bar{Y}\right)

Хоча це визначення має менший відхил, (1/N) має деякі бажані статистичні властивості. Цю формулу часто використовують в літературі про статистику.

Статистичні висновки[ред.ред. код]

В однин графік можна провести верхню та нижню межі для автокореляції за рівнем значущості: B=\pm z_{1-\alpha/2} SE(r_h)\,, з r_h\, як передбачувана автокореляція для запізнення h\, . Якщо автокорреляція вище (нижче), ніж ця верхня (нижня) межа, то нульова гіпотеза, тобто що немає автокореляції в самій затримці та за її межами відкидається на рівні значущості. Цей тест є наближеним і припускає, що часовий ряд є гаусовим. У наведеній вище z1-α/2 квантиль нормального розподілу; SE — стандартна помилка, яка може бути обчислена за формулою Бартлетта:

SE(r_1)=\frac {1} {\sqrt{N}}
 SE(r_h)=\sqrt\frac{1+2\sum_{i=1}^{h-1} r^2_i}{N} for h>1.\,

На картинці вище ми можемо відкинути нульову гіпотезу про те, що немає автокореляції між часовими точками, які є суміжними (запізнення = 1). Для інших періодів ніхто не може відкинути нульову гіпотезу про відсутність автокореляції.

Слід зазначити, що існують дві різні формули для генерації області впевненості:
1. Якщо коррелограмми використовується для перевірки випадковості (тобто не має часової залежності між даними), то краще використати наступну формулу: 
\pm \frac{z_{1-\alpha/2}}{\sqrt{N}} 
де N є розмір вибірки, Z є квантиль функція стандартного нормального розподілу і α є рівень значущості. У цьому випадку, довірчі інтервали мають фіксовану довжину, яка залежить від розміру вибірки.
2. Коррелограмми також використовуються на стадії ідентифікації моделі для установки моделей типу ARIMA. У цьому випадку модель ковзкого середнього значення визнчений для даних і наступні області впевненості повинні бути сформовані: 
\pm z_{1-\alpha/2}\sqrt{\frac{1}{N}\left(1+2\sum_{i=1}^{k} y_i^2\right)}
де к-запізнення. У цьому випадку довірчі інтервали зростають в міру збільшення затримки.

Програмне забезпечення[ред.ред. код]

Коррелограми доступні у більшості статистичного программного забезпечення загального призначення. Для створення такого типу графіка в R можна використовувати функції ACF і PACF.