Автокореляція: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
→‎Оцінювання: актуалізовано переклад «Autocorrelation»: уточнення
Рядок 280: Рядок 280:
== Оцінювання ==
== Оцінювання ==


Для [[Дискретний сигнал|дискретного]] процесу з відомими середнім значенням та дисперсією, для якого ми спостерігаємо <math>n</math> спостережень <math>\{X_1,\,X_2,\,\ldots,\,X_n\}</math>, оцінку автокореляції можна отримати через
Для [[Дискретний сигнал|дискретного]] процесу з відомими середнім значенням та дисперсією, для якого ми спостерігаємо <math>n</math> спостережень <math>\{X_1,\,X_2,\,\ldots,\,X_n\}</math>, оцінку коефіцієнта автокореляції можна отримати через


<math display=block> \hat{R}(k)=\frac{1}{(n-k) \sigma^2} \sum_{t=1}^{n-k} (X_t-\mu)(X_{t+k}-\mu) </math>
<math display=block> \hat{R}(k)=\frac{1}{(n-k) \sigma^2} \sum_{t=1}^{n-k} (X_t-\mu)(X_{t+k}-\mu) </math>

Версія за 07:34, 12 січня 2022

Нагорі: графік ряду зі 100 випадкових чисел, що приховують функцію синуса. Внизу: ця функція синуса, виявлена в корелограмі, отриманій за допомогою автокореляції.
Наочне порівняння згортки, взаємної кореляції та автокореляції. Для операцій, що включають функцію f, і виходячи з припущення, що висота f становить 1,0, значення результату в 5 різних точках показано затіненою областю під кожною точкою. Також, вертикальна симетрія f є причиною того, що та у цьому прикладі ідентичні.

Автокореля́ція (англ. autocorrelation), іноді відома як послідо́вна кореля́ція (англ. serial correlation), у випадку дискретного часу[en] — це кореляція сигналу із затриманою копією самого себе як функція від затримки. Неформально — це схожість між спостереженнями як функція від відставання в часі (англ. time lag) між ними. Аналіз автокореляції — це математичний інструмент для пошуку повторюваних закономірностей, таких як наявність періодичного сигналу, заекранованого шумом[en], або визначення відсутньої основної частоти[en] в сигналі, на яку натякають його гармонічні частоти. Його часто використовують в обробці сигналів для аналізу функцій або рядів значень, таких як сигнали часової області.

Різні галузі досліджень визначають автокореляцію по-різному, й не всі ці визначення є рівнозначними. У деяких галузях цей термін використовують взаємозамінно з автоковаріацією.

Особливими видами процесів із автокореляцією є процеси з одиничним коренем[en], тренд-стаціонарні процеси[en], авторегресійні процеси[en] та процеси ковзного середнього[en].

Автокореляція стохастичних процесів

У статистиці автокореляція дійсного або комплексного випадкового процесу — це кореляція Пірсона між значеннями цього процесу в різні моменти часу як функція від двох моментів часу, або від відставання в часі. Нехай  — випадковий процес, а  — будь-яка точка в часі ( може бути цілим числом для дискретночасового[en], або дійсним числом для неперервночасового[en] процесу). Тоді  — це значення (або реалізація[en]), отримане в результаті заданого виконання[en] процесу в момент часу . Припустімо, що цей процес у момент часу має середнє значення та дисперсію , для будь-якого . Тоді визначенням автокореляці́йної фу́нкції (англ. auto-correlation function) між моментами часу та є[1]:с.388[2]:с.165

 

 

 

 

(1)

де  — оператор математичного сподівання, а риска подає комплексне спряження. Зауважте, що це математичне сподівання може не бути однозначна визначеним[en].

Віднімання середнього значення перед множенням дає автоковаріаці́йну фу́нкцію (англ. auto-covariance function) між моментами часу та :[1]:с.392[2]:с.168

 

 

 

 

(2)

Зауважте, що цей вираз не є однозначно визначеним для всіх часових рядів та процесів, оскільки середнього значення може не існувати, або дисперсія може бути нульовою (для сталого процесу) чи нескінченною (для процесів із розподілом без коректних моментів, таких як певні типи степеневого розподілу).

Визначення для стаціонарного в широкому сенсі стохастичного процесу

Якщо  — стаціонарний у широкому сенсі процес, то середнє значення та дисперсія незалежні від часу, й відтак автоковаріаційна функція залежить лише від відставання між та : автоковаріація залежить лише від часової відстані між парою значень, але не від їхнього положення в часі. Це відтак означає, що автоковаріацію та автокореляцію можливо виразити як функцію від відставання в часі, й що вона буде парною функцією відставання в часі . Це дає звичніші вигляди автокореляційної функції[1]:с.395

 

 

 

 

(3)

та автоковаріаційної функції:

 

 

 

 

(4)

Унормовування

Поширеною практикою в деяких дисциплінах (наприклад, у статистиці та аналізі часових рядів) є унормовувати автоковаріаційну функцію, щоб отримувати залежний від часу коефіцієнт кореляції Пірсона. Проте в деяких інших дисциплінах (наприклад, в інженерії) унормовування зазвичай пропускають, а терміни «автокореляція» та «автоковаріація» використовують як взаємозамінні.

Визначення коефіцієнта автокореляції стохастичного процесу:[2]:с.169

Якщо функція  однозначно визначена, її значення мусять лежати в діапазоні , причому 1 вказує на ідеальну кореляцію, а −1 — на ідеальну антикореляцію[en].

Для слабко стаціонарного, стаціонарного в широкому сенсі (СШС) процесу, визначення таке:

де

Унормовування важливе як тому, що інтерпретація автокореляції як кореляції забезпечує безмасштабну міру сили статистичної залежності, так і тому, що воно впливає на статистичні властивості оцінюваних автокореляцій.

Властивості

Властивість симетрії

Той факт, що автокореляційна функція парна, може бути сформульовано як[2]:с.171

відповідно, для СШС процесу:[2]:с.173

Максимум в нулі

Для СШС процесу[2]:с.174

Зверніть увагу, що завжди дійсна.

Нерівність Коші — Буняковського

Нерівність Коші — Буняковського, нерівність для стохастичних процесів:[1]:с.392

Автокореляція білого шуму

Автокореляція неперервночасового сигналу білого шуму матиме сильний пік (представлений дельта-функцією Дірака) при , й дорівнюватиме для всіх інших .

Теорема Вінера — Хінчина

Теорема Вінера — Хінчина[en] пов'язує автокореляційну функцію зі спектральною густиною потужності через перетворення Фур'є:

Для дійснозначних функцій симетрична автокореляційна функція має дійсне симетричне перетворення, тож теорему Вінера — Хінчина[en] можливо виразити в термінах лише дійсних косинусів:

Автокореляція випадкових векторів

(Потенційно залежна від часу) автокореляці́йна ма́триця (англ. auto-correlation matrix, також звана другим моментом) (потенційно залежного від часу) випадкового вектора  — це матриця , яка містить як елементи автокореляції всіх пар елементів випадкового вектора . Автокореляційну матрицю використовують у різних алгоритмах цифрової обробки сигналів.

Для випадкового вектора , що містить випадкові елементи, математичне сподівання та дисперсія яких існують, автокореляційну матрицю визначають як[3]:с.190[1]:c.334

 

 

 

 

(5)

де позначує транспонування, й має розміри .

У поелементному записі:

Якщо  — комплексний випадковий вектор[en], то автокореляційну матрицю натомість визначають як

Тут позначує ермітове транспонування.

Наприклад, якщо  — випадковий вектор, то  — матриця , чиїм -м елементом є .

Властивості автокореляційної матриці

  • Автокореляційна матриця — ермітова матриця для комплексних випадкових векторів, і симетрична матриця для дійсних випадкових векторів.[3]:с.190
  • Автоковаріаційна матриця додатно напіввизначена,[3]:с.190 тобто, для всіх для дійсного випадкового вектора, й відповідно для всіх у разі комплексного випадкового вектора.
  • Усі власні значення автокореляційної матриці є дійсними та невід'ємними.
  • Автоковаріаційна матриця пов'язана з автокореляціною матрицею наступним чином:
    Відповідно, для комплексних випадкових векторів:

Автокореляція детермінованих сигналів

В обробці сигналів наведене вище визначення часто використовують без унормовування, тобто без віднімання середнього значення й ділення на дисперсію. Коли автокореляційну функцію унормовують за середнім значенням та дисперсією, її іноді називають коефіціє́нтом автокореля́ції (англ. autocorrelation coefficient)[4] або автоковаріаційною функцією.

Автокореляція неперервночасового сигналу

За заданого сигналу неперервну автокореляцію найчастіше визначають як неперервний взаємнокореляційний інтеграл із самим собою, з відставанням .[1]:с.411

 

 

 

 

(6)

де являє собою комплексне спряження . Зверніть увагу, що параметр в інтегралі є фіктивною змінною, необхідною лише для обчислення інтеграла. Вона не несе конкретного змісту.

Автокореляція дискретночасового сигналу

Дискретна автокореляція за відставання для дискретночасового сигналу часу :

 

 

 

 

(7)

Наведені вище визначення працюють для квадратно інтегровних або квадратно сумовних сигналів, тобто, зі скінченною енергією. Сигнали, що «тривають вічно», натомість розглядають як випадкові процеси, й у цьому випадку необхідні відмінні визначення, на основі математичних сподівань. Для стаціонарних у широкому сенсі випадкових процесів автокореляції визначають як

Для процесів, що не є стаціонарними, вони також будуть функціями від та .

Для процесів, що є також ергодичними[en], математичне сподівання можливо замінити границею усереднення за часом. Автокореляцію ергодичного процесу іноді визначають як, або прирівнюють до[4]

Ці визначення мають ту перевагу, що вони дають осмислені однозначно визначені однопараметрові результати для періодичних функцій, навіть якщо ці функції не є результатом стаціонарних ергодичних процесів.

Крім того, сигнали, які тривають вічно, можливо розглядати за допомогою аналізу віконних автокореляційних функцій (англ. short-time autocorrelation function analysis), застосовуючи скінченні інтеграли за часом. (Про пов'язаний процес див. віконне перетворення Фур'є.)

Визначення для періодичних сигналів

Якщо  — неперервна періодична функція з періодом , то інтегрування від до замінюють інтегруванням над будь-яким інтервалом довжини :

що рівнозначне

Властивості

Далі ми опишемо властивості лише одновимірних автокореляцій, оскільки більшість властивостей легко переносяться з одновимірного випадку на багатовимірні. Ці властивості справедливі для стаціонарних у широкому сенсі процесів.[5]

  • Основною властивістю автокореляції є симетрія, , що легко довести з визначення. У неперервному випадку
  • Неперервна автокореляційна функція досягає свого піку в початку координат, де вона набуває дійсного значення, тобто, для будь-якої затримки , .[1]:с.410 Це — наслідок нерівності перестановок. Той самий результат має місце і в дискретному випадку.
  • Автокореляція періодичної функції сама по собі є періодичною, з тим самим періодом.
  • Автокореляція суми двох абсолютно некорельованих функцій (взаємна кореляція дорівнює нулеві для всіх ) є сумою автокореляцій кожної з функцій окремо.
  • Оскільки автокореляція є особливим видом взаємної кореляції, вона зберігає всі властивості взаємної кореляції.
  • За допомогою символу для подання згортки, й функції , що маніпулює функцією , й визначена як , визначення для може бути записано так:

Багатовимірна автокореляція

Багатовимірну автокореляцію визначають аналогічно. Наприклад, у трьох вимірах автокореляцією квадратно-сумовного дискретного сигналу була би

Коли перед обчисленням автокореляційної функції від сигналів віднімають середні значення, отриману функцію зазвичай називають автоковаріаційною функцією.

Ефективне обчислення

Для даних, виражених як дискретна послідовність, часто необхідно обчислювати автокореляцію з високою обчислювальною ефективністю. Метод грубої сили[en], що ґрунтується на визначенні обробки сигналу , можливо використовувати, коли розмір сигналу невеликий. Наприклад, для обчислення автокореляції послідовності дійсного сигналу (тобто, , й для всіх інших значень i) вручну ми спочатку з'ясовуємо, що щойно наведене визначення таке саме, як і «звичайне» множення, але зі зміщеннями праворуч, де кожне вертикальне додавання дає автокореляцію для певних значень відставання:

Таким чином, потрібна послідовність автокореляції — , де а автокореляція для інших значень відставання дорівнює нулеві. В цьому обчисленні ми не виконуємо операцію перенесення під час додавання, як це зазвичай відбувається при звичайному множенні. Зауважте, що ми можемо зменшити кількість необхідних операцій вдвічі, використовуючи притаманну автокореляції симетрію. Якщо сигнал виявляється періодичним, тобто то ми отримуємо циклічну автокореляцію (англ. circular autocorrelation, подібну до циклічної згортки[en]), де лівий та правий хвости попередньої автокореляційної послідовності перекриватимуться й даватимуть , що має той самий період, що й послідовність сигналу Цю процедуру можливо розглядати як застосування властивості згортки Z-перетворення дискретного сигналу.

В той час як алгоритм грубої сили має порядок n2, існує декілька ефективних алгоритмів, які можуть обчислювати автокореляцію в межах порядку n log(n). Наприклад, Теорема Вінера — Хінчина[en] дозволяє обчислювати автокореляцію з сирих даних X(t) за допомогою двох швидких перетворень Фур'є (англ. fast Fourier transforms, FFT):[6][сторінка?]

де IFFT позначує обернене швидке перетворення Фур'є (англ. inverse fast Fourier transform). Зірочка позначує комплексне спряження.

Як альтернатива, кореляцію для декількох τ можливо виконувати, використовуючи обчислення грубою сили для низьких значень τ, а потім поступово об'єднуючи дані X(t) з логарифмічною густиною для обчислення для вищих значень, що дає ту ж ефективність n log(n), але з нижчими вимогами до пам'яті.[7][8]

Оцінювання

Для дискретного процесу з відомими середнім значенням та дисперсією, для якого ми спостерігаємо спостережень , оцінку коефіцієнта автокореляції можна отримати через

для будь-якого додатного цілого . Коли істинне середнє значення та дисперсія відомі, ця оцінка є незмі́щеною (англ. unbiased). Якщо істинне середнє значення та дисперсія процесу невідомі, є декілька можливостей:

  • Якщо та замінити стандартними формулами для вибіркового середнього та вибіркової дисперсії, то це змі́щена оці́нка (англ. biased estimate).
  • Оцінка на основі періодограми[en] замінює у наведеній вище формулі на . Ця оцінка завжди зміщена; проте, вона зазвичай має меншу середньоквадратичну похибку.[9][10]
  • Інші можливості випливають із розгляду двох частин даних та окремо, та обчислення окремих вибіркових середніх та/або вибіркових дисперсій для використання при визначенні оцінки.[джерело?]

Перевага оцінок останнього типу полягає в тому, що набір оцінених автокореляцій, як функція від , потім формує функцію, яка є дійсною автокореляцією в тому сенсі, що можливо визначити теоретичний процес, що має саме таку автокореляцію. Інші оцінки можуть страждати від проблеми, що, якщо їх використовують для обчислення дисперсії лінійної комбінації -ів, то обчислювана дисперсія може виявлятися від'ємною.[11]

Регресійний аналіз

У регресійному аналізі з використанням даних часових рядів автокореляцію у цільовій змінній зазвичай моделюють авторегресійною моделлю (АР, англ. autoregressive model, AR), моделлю ковзного середнього[en] (КС, англ. moving average model, MA), їхнім поєднанням як моделлю авторегресії з ковзним середнім (АРКС, англ. autoregressive-moving-average model, ARMA) або розширенням крайнього, званим моделлю авторегресії з інтегрованим ковзним середнім (АРІКС, англ. autoregressive integrated moving average model, ARIMA). При множинних взаємопов'язаних рядах даних використовують векторну авторегресію (ВАР, англ. vector autoregression, VAR) або її розширення.

У звичайних найменших квадратах[en] (ЗНК, англ. ordinary least squares, OLS) адекватність специфікації моделі можливо частково перевіряти, встановлюючи, чи існує автокореляція залишків регресії. Проблемну автокореляцію похибок, що самі по собі неспостережні, зазвичай можливо виявляти через те, що вона створює автокореляцію у спостережуваних залишках. (Похибки також відомі як «члени похибки», англ. error terms, в економетрії.) Автокореляція похибок порушує припущення звичайних найменших квадратів, що члени похибки некорельовані, що означає незастосовність теореми Гауса — Маркова, і що оцінювачі ЗНК вже не є найкращими лінійними незміщеними оцінювачами (НЛНО, англ. Best Linear Unbiased Estimators, BLUE). Хоч це й не зміщує оцінок коефіцієнтів ЗНК, але коли автокореляції похибок при малих відставання є додатними, то стандартні похибки, як правило, недооцінюються (а t-показники[en] завищуються).

Традиційною перевіркою на наявність автокореляції першого порядку є критерій Дарбіна — Уотсона, або, якщо пояснювальні змінні включають залежну змінну з відставанням, h-критерій Дарбіна. Проте, Дарбіна — Уотсона можливо лінійно відобразити на кореляцію Пірсона між значеннями та їхніми відставаннями.[12] Гнучкішим критерієм, що охоплює автокореляцію вищих порядків, і є застосовним незалежно від того, чи включають незалежні змінні відставання залежної змінної, є критерій Бройша — Ґодфрі[en]. Він включає допоміжну регресію залишків, отримуваних в результаті оцінки цільової моделі, на (а) первинні незалежні змінні, та (б) k відставань залишків, де «k» є порядком цього критерію. Найпростішим варіантом статистичного критерію з цієї допоміжної регресії є TR 2, де T — розмір вибірки, а R 2 — коефіцієнт детермінації. За нульової гіпотези відсутності автокореляції ця статистика асимптотично має розподіл з k ступенями вільності.

До відповідей на ненульову автокореляцію належать узагальнені найменші квадрати[en] та оцінювач Ньюї — Уеста ГАС[en] (гетероскедастично та автокореляційно стійкий, англ. Heteroskedasticity and Autocorrelation Consistent, HAC).[13]

В оцінюванні моделлю ковзного середнього[en] (КС) функцію автокореляції використовують, щоби визначати, яку кількість членів відставання буде доречно включити. Це ґрунтується на тому факті, що для процесу КС порядку q маємо для , й для .

Застосування

Послідовна залежність

Послідо́вна зале́жність (англ. serial dependence) тісно пов'язана з поняттям автокореляції, але подає окреме поняття (див. кореляцію та залежність). Зокрема, можливо мати послідовну залежність за відсутності (лінійної) кореляції. Проте у деяких областях ці два терміни використовують як синоніми.

Часовий ряд випадкової величини має послідовну залежність, якщо значення в якийсь момент часу цього ряду статистично залежне від значення в інший момент часу . Ряд є послідовно незалежним, якщо між будь-якою парою моментів часу залежності немає.

Якщо часовий ряд стаціонарний, то статистична залежність всередині пари означала би, що існує статистична залежність між усіма парами значень з однаковим відставанням .

Див. також

Примітки

  1. а б в г д е ж Gubner, John A. (2006). Probability and Random Processes for Electrical and Computer Engineers. Cambridge University Press. ISBN 978-0-521-86470-1.  (англ.)
  2. а б в г д е Kun Il Park, Fundamentals of Probability and Stochastic Processes with Applications to Communications, Springer, 2018, ISBN 978-3-319-68074-3 (англ.)
  3. а б в Papoulis, Athanasius, Probability, Random variables and Stochastic processes, McGraw-Hill, 1991 (англ.)
  4. а б Dunn, Patrick F. (2005). Measurement and Data Analysis for Engineering and Science. New York: McGraw–Hill. ISBN 978-0-07-282538-1.  (англ.)
  5. Proakis, John (31 серпня 2001). Communication Systems Engineering (2nd Edition) (вид. 2). Pearson. с. 168. ISBN 978-0130617934.  (англ.)
  6. Box, G. E. P.; Jenkins, G. M.; Reinsel, G. C. (1994). Time Series Analysis: Forecasting and Control (вид. 3rd). Upper Saddle River, NJ: Prentice–Hall. ISBN 978-0130607744.  (англ.)
  7. Frenkel, D.; Smit, B. (2002). chap. 4.4.2. Understanding Molecular Simulation (вид. 2nd). London: Academic Press. ISBN 978-0122673511.  (англ.)
  8. Colberg, P.; Höfling, F. (2011). Highly accelerated simulations of glassy dynamics using GPUs: caveats on limited floating-point precision. Comput. Phys. Commun.[en]. 182 (5): 1120–1129. arXiv:0912.3824. Bibcode:2011CoPhC.182.1120C. doi:10.1016/j.cpc.2011.01.009. S2CID 7173093.  (англ.)
  9. Priestley, M. B. (1982). Spectral Analysis and Time Series. London, New York: Academic Press. ISBN 978-0125649018.  (англ.)
  10. Percival, Donald B.; Andrew T. Walden (1993). Spectral Analysis for Physical Applications: Multitaper and Conventional Univariate Techniques. Cambridge University Press. с. 190–195. ISBN 978-0-521-43541-3.  (англ.)
  11. Percival, Donald B. (1993). Three Curious Properties of the Sample Variance and Autocovariance for Stationary Processes with Unknown Mean. The American Statistician (англ.). 47 (4): 274–276. doi:10.1080/00031305.1993.10475997.  (англ.)
  12. Serial correlation techniques. Statistical Ideas. 26 May 2014.  (англ.)
  13. Baum, Christopher F. (2006). An Introduction to Modern Econometrics Using Stata. Stata Press. ISBN 978-1-59718-013-9.  (англ.)
  14. Elson, Elliot L. (December 2011). Fluorescence Correlation Spectroscopy: Past, Present, Future. Biophysical Journal (англ.). 101 (12): 2855–2870. Bibcode:2011BpJ...101.2855E. doi:10.1016/j.bpj.2011.11.012. PMC 3244056. PMID 22208184.  (англ.)
  15. Hołyst, Robert; Poniewierski, Andrzej; Zhang, Xuzhu (2017). Analytical form of the autocorrelation function for the fluorescence correlation spectroscopy. Soft Matter (англ.). 13 (6): 1267–1275. Bibcode:2017SMat...13.1267H. doi:10.1039/C6SM02643E. ISSN 1744-683X. PMID 28106203.  (англ.)
  16. Van Sickle, Jan (2008). GPS for Land Surveyors (вид. Third). CRC Press. с. 18–19. ISBN 978-0-8493-9195-8.  (англ.)
  17. Kalvani, Payam Rajabi; Jahangiri, Ali Reza; Shapouri, Samaneh; Sari, Amirhossein; Jalili, Yousef Seyed (August 2019). Multimode AFM analysis of aluminum-doped zinc oxide thin films sputtered under various substrate temperatures for optoelectronic applications. Superlattices and Microstructures (англ.). 132: 106173. doi:10.1016/j.spmi.2019.106173.  (англ.)
  18. Tyrangiel, Josh (5 лютого 2009). Auto-Tune: Why Pop Music Sounds Perfect. Time. Архів оригіналу за 10 лютого 2009.  (англ.)

 

Література