Інформаційний критерій Акаіке

́Інформаційний критерій Акаіке (ІКА, англ. Akaike information criterion, AIC) — це оцінювач похибки позавибіркового передбачування, і відтак відносної якості статистичних моделей, для заданого набору даних.^[1]^[2] Маючи сукупність моделей для цих даних, ІКА оцінює якість кожної з моделей відносно кожної з інших моделей. Таким чином, ІКА пропонує засоби для обирання моделі.

ІКА ґрунтується на теорії інформації. Коли статистичну модель використовують для представлення процесу, що породив дані, це представлення майже ніколи не буде точним, тож деяка інформація при застосуванні цієї моделі для представлення цього процесу втрачатиметься. ІКА оцінює відносну кількість інформації, що втрачає задана модель: що менше інформації втрачає модель, то вищою є її якість.

В оцінюванні кількості інформації, що втрачає модель, ІКА має справу з компромісом між допасованістю моделі та її простотою. Іншими словами, ІКА працює як із ризиком перенавчання, так і з ризиком недонавчання.

Інформаційний критерій Акаіке названо на честь статистика Хіроцуґу Акаіке^[en], який його сформулював. Він тепер формує основу однієї з парадигм засад статистики^[en], а також знаходить широкого вжитку в статистичному висновуванні.

Означення[ред. | ред. код]

Припустімо, що ми маємо статистичну модель якихось даних. Нехай $k$ буде числом оцінюваних параметрів у цій моделі. Нехай ${\hat {L}}$ буде максимальним значенням функції правдоподібності для цієї моделі. Тоді значенням ІКА цієї моделі є наступне.^[3]^[4]

\mathrm {AIC} \,=\,2k-2\ln({\hat {L}})

Для заданого набору моделей-кандидатів даних найкращою моделлю є та, що має мінімальне значення ІКА. Таким чином, ІКА винагороджує допасованість (за оцінкою функції правдоподібності), але також включає штраф, що є висхідною функцією числа оцінюваних параметрів. Цей штраф перешкоджає перенавчанню, оскільки збільшення числа параметрів у моделі майже завжди покращує її допасованість.

ІКА засновано на теорії інформації. Припустімо, що дані породжуються якимось невідомим процесом f. Ми розглядаємо дві моделі-кандидати для представлення f: g₁ та g₂. Якби ми знали f, то могли би знайти втрату інформації від застосування g₁ для представлення f шляхом обчислення розходження Кульбака — Лейблера, D_KL(f ‖ g₁); аналогічно, втрату інформації від застосування g₂ для представлення f може бути знайдено обчисленням D_KL(f ‖ g₂). Тоді би ми, загалом, обрали модель-кандидата, що мінімізує втрату інформації.

Ми не можемо обирати з упевненістю, оскільки не знаємо f. Проте (Акаіке, 1974) показав, що за допомогою ІКА ми можемо оцінити, наскільки більше (або менше) інформації втрачається моделлю g₁, аніж моделлю g₂. Ця оцінка, проте, є вірною лише асимптотично^[en]: якщо кількість точок даних є малою, то часто є необхідним додаткове коригування (див. § ІКАк нижче).

Зауважте, що ІКА не каже нічого про абсолютну якість моделі, лише про якість відносно інших моделей. Таким чином, якщо всі моделі-кандидати допасовуються погано, ІКА не видасть жодного попередження про це. Отже, після обрання моделі за допомогою ІКА, зазвичай доброю практикою є підтвердити абсолютну якість моделі. Таке підтвердження зазвичай включає перевірку залишків моделі (щоби визначити, чи виглядають залишки випадковими), та перевірки передбачень моделі. Докладніше з цієї теми див. затверджування статистичної моделі.

Як використовувати ІКА на практиці[ред. | ред. код]

Для застосування ІКА на практиці ми починаємо з набору моделей-кандидатів, а потім знаходимо відповідні значення ІКА цих моделей. Через застосування моделі-кандидата для представлення «справжньої моделі», тобто процесу, що породив дані, втрата інформації буде майже завжди. Серед моделей-кандидатів ми хочемо обрати таку, що мінімізує цю втрату інформації. Ми не можемо обирати з упевненістю, але ми можемо мінімізувати оцінювану втрату інформації.

Припустімо, що є R моделей-кандидатів. Позначмо значення ІКА (англ. AIC) для цих моделей через AIC₁, AIC₂, AIC₃, …, AIC_R. Нехай AIC_min буде мінімальним із цих значень. Тоді величину exp((AIC_min − AIC_i)/2) можливо інтерпретувати як пропорційну до ймовірності того, що i-та модель мінімізує (оцінювану) втрату інформації.^[5]

Як приклад, припустімо, що є три моделі-кандидати, значеннями ІКА яких є 100, 102 та 110. Тоді друга модель є в exp((100 − 102)/2) = 0.368 разів імовірнішою за першу модель для мінімізації втрати інформації. Аналогічно, третя модель є в exp((100 − 110)/2) = 0.007 разів імовірнішою за першу для мінімізації втрати інформації.

В цьому прикладі ми опустимо третю модель із подальшого розгляду. Тоді ми матимемо три варіанти: (1) зібрати більше даних у надії, що це дозволить здійснити чітке розрізнення між першими двома моделями; (2) просто зробити висновок, що дані є недостатніми для підтримки обрання моделі з-поміж цих двох; (3) взяти зважене середнє перших двох моделей з ваговими коефіцієнтами, пропорційними 1 та 0.368 відповідно, і потім здійснювати статистичне висновування на основі зваженої мультимоделі.^[6]

Величина exp((AIC_min − AIC_i)/2) є відомою як відносна правдоподібність моделі i. Вона є тісно пов'язаною з відношенням правдоподібностей, що використовують у перевірці відношенням правдоподібностей. Дійсно, якщо всі моделі в наборі кандидатів мають однакове число параметрів, то застосування ІКА може спершу здаватися дуже схожим на застосування перевірки відношенням правдоподібностей. Проте є істотні відмінності. Зокрема, перевірка відношенням правдоподібностей є чинною лише для вкладених моделей, тоді як ІКА (та ІКАк) не мають такого обмеження.^[7]^[8]

Перевірка гіпотез[ред. | ред. код]

Кожну перевірку статистичних гіпотез може бути сформульовано як порівняння статистичних моделей. Отже, кожну перевірку статистичних гіпотез може бути відтворено через ІКА. У підрозділах нижче коротко описано два приклади. Деталі для цих прикладів, та набагато більше прикладів, наведено в (Сакамото та ін., 1986, Частина II) та (Конісі та Кітаґава, 2008, гл. 4).

Відтворення t-критерію Стьюдента[ред. | ред. код]

Як приклад перевірки гіпотез, розгляньмо t-критерій для порівнювання середніх значень двох нормально розподілених сукупностей. Вхід до t-критерію складається з випадкової вибірки з кожної з цих двох сукупностей.

Щоби сформулювати цей критерій як порівняння моделей, ми будуємо дві різні моделі. Перша модель моделює ці дві сукупності як такі, що мають потенційно різні середні значення та стандартні відхилення. Функція правдоподібності для першої моделі відтак є добутком правдоподібностей для двох різних нормальних розподілів, тож вона має чотири параметри: $μ 1, σ 1, μ 2, σ 2$ . Щоби бути точними, ця функція правдоподібності є наступною (із позначенням розмірів вибірок через $n 1$ and $n 2$ ).

{\mathcal {L}}(\mu _{1},\sigma _{1},\mu _{2},\sigma _{2})\,=\,

\;\;\;\;\;\;\;\;\prod _{i=1}^{n_{1}}{\frac {1}{{\sqrt {2\pi }}\sigma _{1}}}\exp \left(-{\frac {(x_{i}-\mu _{1})^{2}}{2\sigma _{1}^{2}}}\right)\;\,{\boldsymbol {\cdot }}\,\prod _{i=n_{1}+1}^{n_{1}+n_{2}}{\frac {1}{{\sqrt {2\pi }}\sigma _{2}}}\exp \left(-{\frac {(x_{i}-\mu _{2})^{2}}{2\sigma _{2}^{2}}}\right)

Друга модель моделює ці дві сукупності як такі, що мають однакові середні, але потенційно різні стандартні відхилення. Функція правдоподібності для другої моделі відтак встановлює в наведеному вище рівнянні $μ 1 = μ 2$ , тож вона має три параметри.

Потім ми максимізуємо ці функції правдоподібності для цих двох моделей (на практиці ми максимізуємо функції логарифмічної правдоподібності), після чого стає просто обчислити значення ІКА цих моделей. Далі ми обчислюємо відносну правдоподібність. Наприклад, якщо друга модель виявиться лише в 0.01 разів правдоподібнішою за першу, то ми виключимо другу модель із подальшого розгляду: тож ми зробимо висновок, що ті дві сукупності мають різні середні.

t-критерій виходить із того, що дві сукупності мають ідентичні стандартні відхилення. Цей критерій схильний бути ненадійним, якщо це припущення є хибним, а також якщо розміри двох вибірок є дуже різними (t-критерій Велша^[en] був би кращим). Порівнювання середніх значень через ІКА, як у прикладі вище, має перевагу, бо не спирається на це припущення.

Порівнювання наборів категорійних даних[ред. | ред. код]

Як інший приклад перевірки гіпотез, припустімо, що ми маємо дві сукупності, й кожен із членів кожної сукупності перебуває в одній з двох категоій: категорії № 1, або категорії № 2. Кожна з сукупностей є розподіленою біноміально. Ми хочемо знати, чи є розподіли цих двох сукупностей однаковими. Нам дали випадкову вибірку з кожної з двох сукупностей.

Нехай $m$ буде розміром вибірки з першої сукупності. Нехай $m 1$ буде числом спостережень (у цій вибірці) в категорії № 1, тож числом спостережень у категорії № 2 буде $m - m 1$ . Аналогічно, нехай $n$ буде розміром вибірки з другої сукупності. Нехай $n 1$ буде числом спостережень (у цій вибірці) в категорії № 1.

Нехай $p$ буде ймовірністю того, що випадково обраний член першої сукупності перебуває в категорії № 1. Отже, ймовірністю того, що випадково обраний член першої сукупності перебуває в категорії № 2, буде $1 - p$ . Зауважте, що розподіл першої сукупності має один параметр. Нехай $q$ буде ймовірністю того, що випадково обраний член другої сукупності перебуває в категорії № 1. Зауважте, що розподіл другої сукупності також має один параметр.

Щоби порівняти розподіли цих двох сукупностей, ми будуємо дві різні моделі. Перша модель моделює, що ці дві сукупності мають потенційно різні біноміальні розподіли. Функцією правдоподібності для першої моделі відтак є добуток правдоподібностей для двох відмінних біноміальних розподілів, тож вона має два параметри: $p$ , $q$ . Щоби бути точними, ця функція правдоподібності є наступною:

{\mathcal {L}}(p,q)\,=\,{\frac {m!}{m_{1}!(m-m_{1})!}}p^{m_{1}}(1-p)^{m-m_{1}}\;\,{\boldsymbol {\cdot }}\;\;{\frac {n!}{n_{1}!(n-n_{1})!}}q^{n_{1}}(1-q)^{n-n_{1}}

Друга модель моделює, що ці дві сукупності мають один і той же розподіл. Функція правдоподібності для другої моделі відтак встановлює в наведеному вище рівнянні $p = q$ , тож ця друга модель має один параметр.

Потім ми максимізуємо ці функції правдоподібності для цих двох моделей (на практиці ми максимізуємо функції логарифмічної правдоподібності), після чого стає просто обчислити значення ІКА цих моделей. Далі ми обчислюємо відносну правдоподібність. Наприклад, якщо друга модель виявилася лише в 0.01 разів правдоподібнішою за першу, то ми виключимо другу модель з подальшого розгляду: тож ми можемо зробити висновок, що ці дві сукупності мають різні розподіли.

Засади статистики[ред. | ред. код]

Статистичне висновування розглядають як таке, що складається з перевіряння та оцінювання гіпотез. Перевіряння гіпотез можливо здійснювати за допомогою ІКА, як обговорено вище. Стосовно оцінювання, існує два типи: точкове оцінювання та проміжкове оцінювання^[en]. Точкове оцінювання можливо здійснювати в межах парадигми ІКА: його забезпечує оцінка максимальної правдоподібності. Проміжкове оцінювання також можливо здійснювати в межах парадигми ІКА: його забезпечують проміжки правдоподібності. Отже, статистичне висновування загалом можливо здійснювати в межах парадигми ІКА.

Найширше вживаними парадигмами статистичного висновування є частотницьке висновування та баєсове висновування. Проте ІКА можливо використовувати для статистичного висновування без покладання як на частотницьку парадигму, так і на баєсову, оскільки ІКА можливо інтерпретувати без допомоги рівнів значущості та баєсових апріорних.^[9] Іншими словами, ІКА може бути використано для формування засад статистики^[en], відмінних як від частотництва, так і від баєсівства.^[10]^[11]

Видозміна для маленького розміру вибірки[ред. | ред. код]

Коли розмір вибірки є маленьким, існує реальна ймовірність того, що ІКА обиратиме моделі, які мають забагато параметрів, тобто, що ІКА перенавчатиметься.^[12]^[13]^[14] Для подолання такого потенційного перенавчання було розроблено ІКАк: це ІКА з коригуванням для маленьких розмірів вибірок.

Формула ІКАк залежить від статистичної моделі. Якщо виходити з того, що модель є одновимірною^[en], лінійною відносно своїх параметрів, та має нормально розподілені залишки (обумовлені регресорами), то формула ІКАк є такою:^[15]^[16]

\mathrm {AICc} \,=\,\mathrm {AIC} +{\frac {2k^{2}+2k}{n-k-1}}

де n позначає розмір вибірки, а k позначає кількість параметрів. Таким чином, ІКАк по суті є ІКА з додатковим членом штрафу на число параметрів. Зауважте, що коли $n \to \infty$ , цей додатковий член штрафу збігається до 0, і відтак ІКАк збігається до ІКА.^[17]

Якщо припущення про те, що модель є одновимірною та лінійною з нормальними залишками, не виконується, то формула ІКАк в загальному випадку відрізнятиметься від наведеної вище. Для деяких моделей визначити цю формулу може бути складно. Втім, для кожної моделі, для якої існує ІКАк, формула ІКАк задається як ІКА плюс член, який включає як $k$ , так і $k$ ². Для порівняння, формула ІКА включає $k$ , але не $k$ ². Іншими словами, ІКА є оцінкою першого порядку^[en] (втрат інформації), в той час як ІКАк є оцінкою другого порядку^[en].^[18]

Подальше обговорення цієї формули, з прикладами та іншими припущеннями, наведено в (Бернем та Андерсон, 2002, гл. 7) та (Конісі та Кітаґава, 2008, гл. 7–8). Зокрема, за інших припущень, часто є придатною натяжкова оцінка цієї формули.

Щоби підсумувати, ІКАк має перевагу в схильності бути точнішим за ІКА (особливо для малих вибірок), але ІКАк також має недолік іноді бути набагато складнішим для обчислення, ніж ІКА. Зауважте, що якщо всі моделі-кандидати мають однакову $k$ та однакові формули ІКАк, то ІКАк та ІКА даватимуть ідентичні (відносно) оцінки. Отже, не буде недоліку в застосуванні ІКА замість ІКАк. Крім того, якщо $n$ у багато разів більше за $k$ ², то додатковий член штрафу буде незначним, а отже, незначними будуть і недоліки застосування ІКА замість ІКАк.

Історія[ред. | ред. код]

Інформаційний критерій Акаіке було сформульовано статистиком Хіроцуґу Акаіке^[en]. Первинно його було названо «інформаційним критерієм».^[19] Англійською про нього було вперше заявлено Акаіке на симпозіумі 1971 року, протокол якого було опубліковано 1973 року.^[19]^[20] Публікація 1973 року, однак, була лише неформальним представленням цих понять.^[21] Першою формальною публікацією була праця Акаіке 1974 року.^[4] Станом на жовтень 2014 року праця 1974 року отримала понад 14 000 цитувань в Web of Science, ставши 73-тьою найцитованішою працею за всі часи.^[22]

На сьогодні ІКА став настільки поширеним, що його часто використовують без цитування праці Акаіке 1974 року. Дійсно, існує понад 150 000 наукових статей/книг, що використовують ІКА (за оцінкою Google Scholar).^[23]

Початкове виведення ІКА покладалося на деякі сильні припущення. (Такеуті, 1976) показав, що ці припущення може бути зроблено значно слабшими. Але праця Такеуті була японською, і не була широко відомою за межами Японії протягом багатьох років.

ІКАк початково запропонував для лінійної регресії (лише) (Суґіура, 1978). Це спровокувало працю (Гурвич та Цай, 1989) та кілька подальших праць цих же авторів, що розширили ситуації, в яких можливо застосовувати ІКАк.

Першим загальним викладом підходу теорії інформації була книга (Бернем та Андерсон, 2002). Вона включає англомовне представлення праці Такеуті. Ця книга призвела до поширення застосування ІКА, і наразі вона має понад 48 000 цитувань на Google Scholar.

Акаіке назвав свій підхід «принципом максимізації ентропії», оскільки він ґрунтується на понятті ентропії в теорії інформації. Дійсно, мінімізація ІКА в статистичній моделі є фактично рівнозначною максимізації ентропії в термодинамічній системі; іншими словами, підхід теорії інформації в статистиці є по суті застосуванням другого закону термодинаміки. По суті, ІКА має корені в праці Людвіга Больцмана про ентропію. Більше про ці питання див. (Акаіке, 1985) та (Бернем та Андерсон, 2002, гл. 2).

Поради щодо застосування[ред. | ред. код]

Підрахунок параметрів[ред. | ред. код]

Статистична модель мусить допасовуватися до всіх точок даних. Таким чином, пряма лінія сама по собі не є моделлю даних, якщо не всі точки даних лежать точно на цій лінії. Проте ми можемо обрати модель, яка є «прямою лінією плюс шум»; таку модель може бути формально описано таким чином: y_i = b₀ + b₁x_i + ε_i. Тут ε_i є залишками від допасовування прямої лінії. Якщо ε_i вважаються гаусовими НОР (з нульовим середнім значенням), то модель має три параметри: b₀, b₁ та дисперсію цих гаусових розподілів. Отже, при обчисленні ІКА цієї моделі ми повинні використовувати k=3. Загальніше, для будь-якої моделі найменших квадратів з гаусовими НОР залишками дисперсія розподілів залишків повинна рахуватися як один з параметрів.^[24]

Як інший приклад розгляньмо авторегресійну модель першого порядку, визначену як x_i = c + φx_i−1 + ε_i, де ε_i є гаусовими НОР (з нульовим середнім значенням). У випадку цієї моделі існує три параметри: c, φ та дисперсія ε_i. Загальніше, авторегресійна модель p-того порядку має p + 2 параметри. (Проте, якщо c не оцінюється з даних, а є натомість заданим заздалегідь, тоді параметрів є лише p + 1.)

Перетворювання даних[ред. | ред. код]

Значення ІКА для всіх моделей-кандидатів мусить бути обчислювано на одному й тому ж наборі даних. Проте іноді нам може захотітися порівняти модель змінної відгуку, $y$ , із моделлю логарифма змінної відгуку, $log(y)$ . Загальніше, нам може захотітися порівняти модель даних із моделлю перетворених даних. Далі наведено ілюстрацію того, як давати раду перетворенням даних (пристосовано з (Бернем та Андерсон, 2002, §2.11.3): «Дослідники повинні бути впевнені, що моделюють всі гіпотези, застосовуючи одну й ту ж змінну відгуку»).

Припустімо, що ми хочемо порівнювати дві моделі: одну з нормальним розподілом $y$ , та одну з нормальним розподілом $log(y)$ . Ми не повинні порівнювати значення ІКА двох моделей напряму. Натомість ми повинні перетворити нормальну кумулятивну функцію розподілу, щоби спочатку взяти логарифм $y$ . Для здійснення цього нам потрібно виконати відповідне інтегрування підставлянням^[en]: таким чином, нам потрібно помножити на похідну функції (натурального) логарифма, що є $1/ y$ . Отже, перетворений розподіл має наступну функцію густини ймовірності:

y\mapsto \,{\frac {1}{y}}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\,\exp \left(-{\frac {\left(\ln y-\mu \right)^{2}}{2\sigma ^{2}}}\right)

що є функцією густини ймовірності логнормального розподілу. Тепер ми можемо порівнювати значення ІКА нормальної моделі зі значенням ІКА логнормальної моделі.

Ненадійність програмного забезпечення[ред. | ред. код]

Деяке статистичне програмне забезпечення повідомлятиме значення ІКА або максимальне значення функції логарифмічної правдоподібності, але ці значення не завжди є правильними. Як правило, неправильність спричинюється нехтуванням сталою в логарифмічній функції правдоподібності. Наприклад, функцією логарифмічної правдоподібності для $n$ незалежних ідентичних нормальних розподілів є

\ln {\mathcal {L}}(\mu ,\sigma )\,=\,-{\frac {n}{2}}\ln(2\pi )-{\frac {n}{2}}\ln \sigma ^{2}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}

Це є функцією, що максимізують при отримуванні значення ІКА. Проте деяке програмне забезпечення нехтує сталим членом $(n /2) ln(2 π)$ , і таким чином повідомляє помилкові значення максимумів логарифмічних правдоподібностей, і, відтак, ІКА. Такі помилки не мають значення для порівнянь на основі ІКА, якщо всі моделі мають нормально розподілені залишки, оскільки тоді помилки взаємно компенсуються. Проте в загальному випадку сталий член потребує включення до функції логарифмічної правдоподібності.^[25] Отже, перш ніж застосовувати програмне забезпечення для обчислення ІКА, в загальному випадку є гарною звичкою виконати якісь прості перевірки на цьому програмному забезпеченні, щоби переконатися, що значення цієї функції є правильними.

Порівняння з іншими методами обирання моделі[ред. | ред. код]

Порівняння з БІК[ред. | ред. код]

Формула баєсова інформаційного критерію (БІК) є подібною до формули ІКА, але має відмінний штраф на число параметрів. В ІКА цим штрафом є $2 k$ , тоді як в БІК штрафом є $ln(n) k$ .

Порівняння ІКА/ІКАк та БІК наведено в (Бернем та Андерсон, 2002, §6.3-6.4), з подальшими зауваженнями в (Бернем та Андерсон, 2004). Автори показують, що ІКА/ІКАк може бути виведено в такій самій баєсовій системі, що й БІК, просто застосованням інших апріорних імовірностей. Проте, в баєсовім виведенні БІК кожна модель-кандидат має апріорну ймовірність 1/R (де R є числом моделей-кандидатів). Таке виведення є «не чутливим» (англ. not sensible), оскільки апріорне повинне бути спадною функцією від $k$ . Крім того, ці автори представляють кілька імітаційних досліджень, які наводять на думку, що ІКА має схильність мати практичні/продуктивні переваги над БІК.

Деякі дослідники підкреслили, що ІКА та БІК підходять для різних задач. Зокрема, вважають, що БІК підходить для обирання «істинної моделі» (тобто, процесу, що породив дані) з набору моделей кандидатів, тоді як ІКА для цього не підходить. Конкретніше, якщо «істинна модель» є присутньою в наборі моделей-кандидатів, то БІК обере цю «істинну модель» з імовірністю 1, за $n \to \infty$ . На противагу цьому, при здійсненні обирання за допомогою ІКА, ця ймовірність може бути меншою за 1.^[26]^[27]^[28] Прибічники ІКА стверджують, що ця проблема є незначною, оскільки «істинна модель» практично ніколи не буває присутньою в наборі кандидатів. Дійсно, у статистиці є поширеним афоризм, що «всі моделі є неправильними»^[en], тож «істинна модель» (тобто, реальність) не може бути в наборі кандидатів.

Ще одне порівняння ІКА та БІК наведено у (Врізе, 2012). Врізе представляє імітаційне дослідження, яке дозволяє «істинній моделі» бути в наборі кандидатів (на відміну від практично всіх реальних даних). Це імітаційне дослідження показує, зокрема, що ІКА іноді обирає набагато кращу модель, ніж БІК, навіть коли «істинна модель» перебуває в наборі кандидатів. Причина цього полягає в тім, що для скінченних $n$ БІК може мати істотний ризик обрання з набору кандидатів дуже поганої моделі. Ця причина може проявлятися навіть коли $n$ є набагато більшим за $k$ ². З ІКА ризик обрання дуже поганої моделі є мінімальним.

Якщо «істинної моделі» в наборі кандидатів немає, то найбільше, що ми можемо сподіватися зробити, це обрати модель, яка найкраще наближує «істинну». ІКА підходить для пошуку найкращої наближувальної моделі, за деяких припущень.^[26]^[27]^[28] (Ці припущення включають, зокрема, те, що наближування здійснюють по відношенню до втрати інформації.)

Порівняння ІКА та БІК у контексті регресії наведено в (Янг, 2005). В регресії ІКА є асимптотично оптимальним для обирання моделі з найменшою середньоквадратичною похибкою, за припущення, що «істинна модель» не перебуває в наборі кандидатів. БІК не є асимптотично оптимальним за цього припущення. Янг додатково показує, що темп, з яким ІКА збігається до оптимуму, в певному сенсі є найкращим з можливих.

Порівняння з перехресним затверджуванням[ред. | ред. код]

Перехресне затверджування з виключенням по одному є асимптотично рівнозначним ІКА для звичайних лінійних регресійних моделей.^[29] Асимптотична еквівалентність до ІКА також має місце й для моделей зі змішаними рівнями факторів.^[30]

Порівняння з найменшими квадратами[ред. | ред. код]

Іноді кожна з моделей-кандидатів передбачає, що залишки розподілено відповідно до незалежних ідентичних нормальних розподілів (з нульовим середнім). Це дає привід для допасовування моделей найменшими квадратами.

При допасовуванні найменшими квадратами оцінкою максимальної правдоподібності для дисперсії розподілів залишків моделі є ${\hat {\sigma }}^{2}=\mathrm {RSS} /n$ , де $\mathrm {RSS}$ є залишковою сумою квадратів^[en] (англ. Residual Sum of Squares): $\textstyle \mathrm {RSS} =\sum _{i=1}^{n}(y_{i}-f(x_{i};{\hat {\theta }}))^{2}$ . Тоді максимальним значенням функції логарифмічної правдоподібності моделі є

-{\frac {n}{2}}\ln(2\pi )-{\frac {n}{2}}\ln({\hat {\sigma }}^{2})-{\frac {1}{2{\hat {\sigma }}^{2}}}\mathrm {RSS} \,=\,-{\frac {n}{2}}\ln(\mathrm {RSS} /n)+C

де $C$ є сталою, що не залежить від моделі, а залежить лише від конкретних точок даних, тобто, вона не змінюється, якщо не змінюються дані.

Це дає AIC = $2 k + n ln(RSS/ n) - 2 C = 2 k + n ln(RSS) - (n ln(n) + 2 C)$ .^[24] Оскільки в ІКА мають значення лише різниці, сталою $(n ln(n) + 2 C)$ можливо нехтувати, що дозволяє нам зручно брати для порівнювання моделей AIC = $2 k + n ln(RSS)$ . Зауважте, що якщо всі ці моделі мають однакове $k$ , то обирання моделі з мінімальним ІКА є рівнозначним обиранню моделі з мінімальною $RSS$ , що є звичайною метою обирання моделі на основі найменших квадратів.

Порівняння з C_p Меллоуза[ред. | ред. код]

C_p Меллоуза^[en] є еквівалентом ІКА у випадку (гаусової) лінійної регресії.^[31]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

↑ McElreath, Richard (2016). Statistical Rethinking: A Bayesian Course with Examples in R and Stan. CRC Press. с. 189. ISBN 978-1-4822-5344-3. Архів оригіналу за 25 липня 2020. Процитовано 30 грудня 2019. AIC provides a surprisingly simple estimate of the average out-of-sample deviance. (англ.)
↑ Taddy, Matt (2019). Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. New York: McGraw-Hill. с. 90. ISBN 978-1-260-45277-8. Архів оригіналу за 25 липня 2020. Процитовано 30 грудня 2019. The AIC is an estimate for OOS deviance. (англ.)
↑ Бернем та Андерсон, 2002, §2.2.
↑ ^а ^б Акаіке, 1974.
↑ Бернем та Андерсон, 2002, §2.9.1, §6.4.5.
↑ Бернем та Андерсон, 2002.
↑ Бернем та Андерсон, 2002, §2.12.4.
↑ Мерта, 2014.
↑ Бернем та Андерсон, 2002, с. 99.
↑ Бандьопадхяя та Форстер, 2011.
↑ Сакамото та ін., 1986.
↑ МакКуоррі та Цай, 1998.
↑ Клаескенс та Йорт, 2008, §8.3.
↑ Жиро, 2015, §2.9.1.
↑ Кавано, 1997.
↑ Бернем та Андерсон, 2002, §2.4.
↑ Бернем та Андерсон, 2004.
↑ Бернем та Андерсон, 2002, §7.4.
↑ ^а ^б Фіндлі та Парцен, 1995.
↑ Акаіке, 1973.
↑ де Лев, 1992.
↑ Van Noordon R., Maher B., Nuzzo R. (2014), «The top 100 papers», Nature, 514. (англ.)
↑ Джерела, що містять як «Akaike», так і «AIC», [Архівовано 13 квітня 2021 у Wayback Machine.] на Google Scholar.
↑ ^а ^б Бернем та Андерсон, 2002, с. 63.
↑ Бернем та Андерсон, 2002, с. 82.
↑ ^а ^б Бернем та Андерсон, 2002, §6.3-6.4.
↑ ^а ^б Врізе, 2012.
↑ ^а ^б Ахо, Дерріберрі та Петерсон, 2014.
↑ Стоун, 1977.
↑ Фан, 2011.
↑ Boisbunon та ін., 2014.

Джерела[ред. | ред. код]

Aho, K.; Derryberry, D.; Peterson, T. (2014), Model selection for ecologists: the worldviews of AIC and BIC, Ecology, 95 (3): 631—636, doi:10.1890/13-1452.1 (англ.)
Akaike, H. (1973), Information theory and an extension of the maximum likelihood principle, у Petrov, B. N.; Csáki, F. (ред.), 2nd International Symposium on Information Theory, Tsahkadsor, Armenia, USSR, September 2-8, 1971, Budapest: Akadémiai Kiadó^[en], с. 267—281 Переопубліковано в Kotz, S.; Johnson, N. L., ред. (1992), Breakthroughs in Statistics, т. I, Springer-Verlag, с. 610—624 (англ.)
Akaike, H. (1974), A new look at the statistical model identification, IEEE Transactions on Automatic Control, 19 (6): 716—723, doi:10.1109/TAC.1974.1100705, MR 0423716 (англ.)
Akaike, H. (1985), Prediction and entropy, у Atkinson, A. C.; Fienberg, S. E. (ред.), A Celebration of Statistics, Springer, с. 1—24 (англ.)
Bandyopadhyay, P. S.; Forster, M. R., ред. (2011), Philosophy of Statistics, North-Holland Publishing (англ.)
Boisbunon, A.; Canu, S.; Fourdrinier, D.; Strawderman, W.; Wells, M. T. (2014), Akaike's Information Criterion, C_p and estimators of loss for elliptically symmetric distributions, International Statistical Review, 82: 422—439, doi:10.1111/insr.12052 (англ.)
Burnham, K. P.; Anderson, D. R. (2002), Model Selection and Multimodel Inference: A practical information-theoretic approach (вид. 2nd), Springer-Verlag (англ.)
Burnham, K. P.; Anderson, D. R. (2004), Multimodel inference: understanding AIC and BIC in Model Selection (PDF), Sociological Methods & Research^[en], 33: 261—304, doi:10.1177/0049124104268644, архів оригіналу (PDF) за 15 березня 2012, процитовано 21 жовтня 2015 (англ.)
Cavanaugh, J. E. (1997), Unifying the derivations of the Akaike and corrected Akaike information criteria (PDF), Statistics & Probability Letters, 31 (2): 201—208, doi:10.1016/s0167-7152(96)00128-9, архів оригіналу (PDF) за 27 березня 2016, процитовано 21 жовтня 2015 (англ.)
Claeskens, G.; Hjort, N. L. (2008), Model Selection and Model Averaging, Cambridge University Press (англ.) [Зауваження: Визначення ІКА Клаескенс та Йорта має протилежний знак до стандартного визначення, первинно даного Акаіке, та дотримуваного іншими авторами.]
deLeeuw, J. (1992), Introduction to Akaike (1973) information theory and an extension of the maximum likelihood principle (PDF), у Kotz, S.; Johnson, N. L. (ред.), Breakthroughs in Statistics I, Springer, с. 599—609, архів оригіналу (PDF) за 8 січня 2016, процитовано 21 жовтня 2015 (англ.)
Fang, Yixin (2011), Asymptotic equivalence between cross-validations and Akaike Information Criteria in mixed-effects models (PDF), Journal of Data Science, 9: 15—21, архів оригіналу (PDF) за 4 березня 2016, процитовано 21 жовтня 2015 (англ.)
Findley, D. F.; Parzen, E. (1995), A conversation with Hirotugu Akaike, Statistical Science^[en], 10: 104—117, doi:10.1214/ss/1177010133 (англ.)
Giraud, C. (2015), Introduction to High-Dimensional Statistics, CRC Press (англ.)
Hurvich, C. M.; Tsai, C.-L. (1989), Regression and time series model selection in small samples, Biometrika^[en], 76 (2): 297—307, doi:10.1093/biomet/76.2.297 (англ.)
Konishi, S.; Kitagawa, G. (2008), Information Criteria and Statistical Modeling, Springer (англ.)
McQuarrie, A. D. R.; Tsai, C.-L. (1998), Regression and Time Series Model Selection, World Scientific (англ.)
Murtaugh, P. A. (2014), In defense of P values, Ecology, 95 (3): 611—617, doi:10.1890/13-0590.1, архів оригіналу за 30 грудня 2019, процитовано 30 грудня 2019 (англ.)
Sakamoto, Y.; Ishiguro, M.; Kitagawa, G. (1986), Akaike Information Criterion Statistics, D. Reidel^[en] (англ.)
Stone, M. (1977), An asymptotic equivalence of choice of model by cross-validation and Akaike's criterion, Journal of the Royal Statistical Society, Series B^[en], 39 (1): 44—47, JSTOR 2984877 (англ.)
Sugiura, N. (1978), Further analysis of the data by Akaike's information criterion and the finite corrections, Communications in Statistics - Theory and Methods^[en], 7: 13—26, doi:10.1080/03610927808827599 (англ.)
Помилка Lua у Модуль:Citation/CS1/Utilities у рядку 73: bad argument #1 to 'message.newRawMessage' (string expected, got nil). (яп.)
Vrieze, S. I. (2012), Model selection and psychological theory: a discussion of the differences between the Akaike Information Criterion (AIC) and the Bayesian Information Criterion (BIC), Psychological Methods^[en], 17 (2): 228—243, doi:10.1037/a0027127, PMC 3366160, PMID 22309957 (англ.)
Yang, Y. (2005), Can the strengths of AIC and BIC be shared?, Biometrika^[en], 92: 937—950, doi:10.1093/biomet/92.4.937 (англ.)

Література[ред. | ред. код]

Akaike, H. (21 December 1981), This Week's Citation Classic (PDF), Current Contents Engineering, Technology, and Applied Sciences^[en], 12 (51): 42, архів оригіналу (PDF) за 18 листопада 2017, процитовано 21 жовтня 2015 (англ.) [Хіроцуґу Акаіке коментує, як він дійшов до ІКА]
Anderson, D. R. (2008), Model Based Inference in the Life Sciences, Springer (англ.)
Arnold, T. W. (2010), Uninformative parameters and model selection using Akaike's Information Criterion, Journal of Wildlife Management^[en], 74 (6): 1175—1178, doi:10.1111/j.1937-2817.2010.tb01236.x (англ.)
Burnham, K. P.; Anderson, D. R.; Huyvaert, K. P. (2011), AIC model selection and multimodel inference in behavioral ecology (PDF), Behavioral Ecology and Sociobiology, 65: 23—35, doi:10.1007/s00265-010-1029-6, архів оригіналу (PDF) за 9 серпня 2017, процитовано 30 грудня 2019 (англ.)
Cavanaugh, J. E.; Neath, A. A. (2019), The Akaike information criterion, WIREs Computational Statistics^[en], 11 (3): e1460, doi:10.1002/wics.1460 (англ.)
Ing, C.-K.; Wei, C.-Z. (2005), Order selection for same-realization predictions in autoregressive processes, Annals of Statistics^[en], 33 (5): 2423—2474, doi:10.1214/009053605000000525 (англ.)
Ko, V.; Hjort, N. L. (2019), Copula information crite rion for model selection with two-stage maximum likelihood estimation, Econometrics and Statistics, 12: 167–180, doi:10.1016/j.ecosta.2019.01.001 (англ.)
Larski, S. (2012), The Problem of Model Selection and Scientific Realism (PDF) (Thesis), London School of Economics, архів оригіналу (PDF) за 24 березня 2019, процитовано 30 грудня 2019 (англ.)
Pan, W. (2001), Akaike's Information Criterion in generalized estimating equations (PDF), Biometrics^[en], 57: 120—125, doi:10.1111/j.0006-341X.2001.00120.x, архів оригіналу (PDF) за 5 травня 2018, процитовано 30 грудня 2019 (англ.)
Parzen, E.; Tanabe, K.; Kitagawa, G., ред. (1998), Selected Papers of Hirotugu Akaike, Springer, doi:10.1007/978-1-4612-1694-0 (англ.)
Saefken, B.; Kneib, T.; van Waveren, C.-S.; Greven, S. (2014), A unifying approach to the estimation of the conditional Akaike information in generalized linear mixed models, Electronic Journal of Statistics^[en], 8: 201—225, doi:10.1214/14-EJS881 (англ.)

[1] McElreath, Richard (2016). Statistical Rethinking: A Bayesian Course with Examples in R and Stan. CRC Press. с. 189. ISBN 978-1-4822-5344-3. Архів оригіналу за 25 липня 2020. Процитовано 30 грудня 2019. AIC provides a surprisingly simple estimate of the average out-of-sample deviance. (англ.)

[2] Taddy, Matt (2019). Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. New York: McGraw-Hill. с. 90. ISBN 978-1-260-45277-8. Архів оригіналу за 25 липня 2020. Процитовано 30 грудня 2019. The AIC is an estimate for OOS deviance. (англ.)

[FOOTNOTEБернемАндерсон2002§2.2-3] Бернем та Андерсон, 2002, §2.2.

[FOOTNOTEАкаіке1974-4] а ^б Акаіке, 1974.

[FOOTNOTEБернемАндерсон2002§2.9.1,_§6.4.5-5] Бернем та Андерсон, 2002, §2.9.1, §6.4.5.

[FOOTNOTEБернемАндерсон2002-6] Бернем та Андерсон, 2002.

[FOOTNOTEБернемАндерсон2002§2.12.4-7] Бернем та Андерсон, 2002, §2.12.4.

[FOOTNOTEМерта2014-8] Мерта, 2014.

[FOOTNOTEБернемАндерсон200299-9] Бернем та Андерсон, 2002, с. 99.

[FOOTNOTEБандьопадхяяФорстер2011-10] Бандьопадхяя та Форстер, 2011.

[FOOTNOTEСакамотоІсіґуроКітаґава1986-11] Сакамото та ін., 1986.

[FOOTNOTEМакКуорріЦай1998-12] МакКуоррі та Цай, 1998.

[FOOTNOTEКлаескенсЙорт2008§8.3-13] Клаескенс та Йорт, 2008, §8.3.

[FOOTNOTEЖиро2015§2.9.1-14] Жиро, 2015, §2.9.1.

[FOOTNOTEКавано1997-15] Кавано, 1997.

[FOOTNOTEБернемАндерсон2002§2.4-16] Бернем та Андерсон, 2002, §2.4.

[FOOTNOTEБернемАндерсон2004-17] Бернем та Андерсон, 2004.

[FOOTNOTEБернемАндерсон2002§7.4-18] Бернем та Андерсон, 2002, §7.4.

[FOOTNOTEФіндліПарцен1995-19] а ^б Фіндлі та Парцен, 1995.

[FOOTNOTEАкаіке1973-20] Акаіке, 1973.

[FOOTNOTEде_Лев1992-21] де Лев, 1992.

[22] Van Noordon R., Maher B., Nuzzo R. (2014), «The top 100 papers», Nature, 514. (англ.)

[23] Джерела, що містять як «Akaike», так і «AIC», [Архівовано 13 квітня 2021 у Wayback Machine.] на Google Scholar.

[FOOTNOTEБернемАндерсон200263-24] а ^б Бернем та Андерсон, 2002, с. 63.

[FOOTNOTEБернемАндерсон200282-25] Бернем та Андерсон, 2002, с. 82.

[FOOTNOTEБернемАндерсон2002§6.3-6.4-26] а ^б Бернем та Андерсон, 2002, §6.3-6.4.

[FOOTNOTEВрізе2012-27] а ^б Врізе, 2012.

[FOOTNOTEАхоДерріберріПетерсон2014-28] а ^б Ахо, Дерріберрі та Петерсон, 2014.

[FOOTNOTEСтоун1977-29] Стоун, 1977.

[FOOTNOTEФан2011-30] Фан, 2011.

[FOOTNOTEBoisbunonCanuFourdrinierStrawderman2014-31] Boisbunon та ін., 2014.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]