Інформаційний критерій Акаіке: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
Bluelinking 1 books for verifiability.) #IABot (v2.1alpha3
актуалізовано переклад «Akaike information criterion»
Рядок 1: Рядок 1:
'''Інформаційний критерій Акаіке''' ('''ІКА''', {{lang-en|Akaike information criterion, AIC}}) — це міра відносної якості [[Статистична модель|статистичних моделей]] для заданого набору даних. Маючи сукупність моделей для цих даних, ІКА оцінює якість кожної з моделей відносно кожної з інших моделей. Отже, ІКА пропонує засоби для [[обирання моделі]].
'''Інформаційний критерій Акаіке''' ('''ІКА''', {{lang-en|Akaike information criterion, AIC}})&nbsp;— це [[Оцінювач (статистика)|оцінювач]] похибки [[Позавибірковість|позавибіркового]] передбачування, і відтак відносної якості [[Статистична модель|статистичних моделей]], для заданого набору даних.<ref>{{cite book |first=Richard |last=McElreath |authorlink=Річард МакЕлрет |title=Statistical Rethinking: A Bayesian Course with Examples in R and Stan |location= |publisher=CRC Press |year=2016 |isbn=978-1-4822-5344-3 |page=189 |quote=AIC provides a surprisingly simple estimate of the average out-of-sample deviance. |url=https://books.google.com/books?id=T3FQDwAAQBAJ&pg=PA189 }} {{ref-en}}</ref><ref>{{cite book |first=Matt |last=Taddy |title=Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions |page=90 |location=New York |publisher=McGraw-Hill |year=2019 |isbn=978-1-260-45277-8 |url=https://books.google.com/books?id=yPOUDwAAQBAJ&pg=PA90 |quote=The AIC is an estimate for OOS deviance. }} {{ref-en}}</ref> Маючи сукупність моделей для цих даних, ІКА оцінює якість кожної з моделей відносно кожної з інших моделей. Таким чином, ІКА пропонує засоби для [[обирання моделі]].


ІКА засновано на [[Теорія інформації|теорії інформації]]: він пропонує відносні оцінки втраченої інформації при застосуванні даної моделі для представлення процесу, що породжує дані. Роблячи це, він має справу з компромісом між [[Пристосованість (статистика)|пристосованістю]] моделі та її складністю.
ІКА ґурнується на [[Теорія інформації|теорії інформації]]. Коли статистичну модель використовують для представлення процесу, що породив дані, це представлення майже ніколи не буде точним, тож деяка інформація при застосуванні цієї моделі для представлення цього процесу втрачатиметься. ІКА оцінює відносну кількість інформації, що втрачає задана модель: що менше інформації втрачає модель, то вищою є її якість.


В оцінюванні кількості інформації, що втрачає модель, ІКА має справу з компромісом між [[Пристосованість (статистика)|пристосованістю]] моделі та її простотою. Іншими словами, ІКА працює як із ризиком [[перенавчання]], так і з ризиком недонавчання.
ІКА не пропонує перевірки моделі в сенсі перевірки [[Нульова гіпотеза|нульової гіпотези]]; тобто, ІКА не каже нічого про якість моделі в абсолютному сенсі. Якщо всі моделі-кандидати мають погану пристосованість, то ІКА не видасть жодного попередження про це.


Інформаційний критерій Акаіке названо на честь статистика {{нп|Хіроцуґу Акаіке|||Hirotugu Akaike}}, який його сформулював. Він тепер формує основу однієї з парадигм {{нп|Засади статистики|засад статистики||Foundations of statistics}}, а також знаходить широкого вжитку в [[Статистичне висновування|статистичному висновуванні]].
== Визначення ==
Припустімо, що ми маємо [[Статистична модель|статистичну модель]] якихось даних. Нехай ''L'' буде максимальним значенням [[Функція правдоподібності|функції правдоподібності]] для цієї моделі; нехай ''k'' буде числом оцінюваних [[параметр]]ів у цій моделі. Тоді значенням ІКА цієї моделі є наступне.{{sfn|Burnham|Anderson|2002|loc=&sect;2.2}}{{sfn|Akaike|1974}}


== Означення ==
: <math>\mathrm{AIC} = 2k - 2\ln(L)</math>
Припустімо, що ми маємо [[Статистична модель|статистичну модель]] якихось даних. Нехай {{math|''k''}} буде числом оцінюваних [[Статистичний параметр|параметрів]] у цій моделі. Нехай <math>\hat L</math> буде максимальним значенням [[Функція правдоподібності|функції правдоподібності]] для цієї моделі. Тоді значенням ІКА цієї моделі є наступне.{{sfn|Бернем|Андерсон|2002|loc=§2.2}}{{sfn|Акаіке|1974}}


: <math>\mathrm{AIC} \, = \, 2k - 2\ln(\hat L)</math>
Для заданого набору моделей-кандидатів даних ''найкращою моделлю є та, що має мінімальне значення ІКА''. Отже, ІКА винагороджує пристосованість (за оцінкою функції правдоподібності), але також включає штраф, що є висхідною функцією числа оцінюваних параметрів. Цей штраф перешкоджає [[Перенавчання|перенавчанню]] (збільшення числа параметрів у моделі майже завжди покращує пристосованість).


Для заданого набору моделей-кандидатів даних найкращою моделлю є та, що має мінімальне значення ІКА. Таким чином, ІКА винагороджує [[Пристосованість (статистика)|пристосованість]] (за оцінкою функції правдоподібності), але також включає штраф, що є висхідною функцією числа оцінюваних параметрів. Цей штраф перешкоджає [[Перенавчання|перенавчанню]], оскільки збільшення числа параметрів у моделі майже завжди покращує її пристосованість.
ІКА засновано на [[Теорія інформації|теорії інформації]]. Припустімо, що дані породжуються якимось невідомим процесом ''f''. Ми розглядаємо дві моделі-кандидати для представлення ''f'': ''g''<sub>1</sub> та ''g''<sub>2</sub>. Якби ми знали ''f'', то могли би знайти втрату інформації від застосування ''g''<sub>1</sub> для представлення ''f'' шляхом обчислення [[Відстань Кульбака — Лейблера|відстані Кульбака — Лейблера]], ''D''<sub>KL</sub>(''f'' ‖ ''g''<sub>1</sub>); аналогічно, втрату інформації від застосування ''g''<sub>2</sub> для представлення ''f'' може бути знайдено обчисленням ''D''<sub>KL</sub>(''f'' ‖ ''g''<sub>2</sub>). Тоді би ми вибрали модель-кандидата, що мінімізує втрату інформації.


ІКА засновано на [[Теорія інформації|теорії інформації]]. Припустімо, що дані породжуються якимось невідомим процесом ''f''. Ми розглядаємо дві моделі-кандидати для представлення ''f'': ''g''<sub>1</sub> та ''g''<sub>2</sub>. Якби ми знали ''f'', то могли би знайти втрату інформації від застосування ''g''<sub>1</sub> для представлення ''f'' шляхом обчислення [[розходження Кульбака — Лейблера|розходження Кульбака&nbsp;— Лейблера]], {{Nowrap|''D''<sub>KL</sub>(''f'' &thinsp;‖ &thinsp;''g''<sub>1</sub>)}}; аналогічно, втрату інформації від застосування ''g''<sub>2</sub> для представлення ''f'' може бути знайдено обчисленням {{Nowrap|''D''<sub>KL</sub>(''f'' &thinsp;‖ &thinsp;''g''<sub>2</sub>)}}. Тоді би ми, загалом, обрали модель-кандидата, що мінімізує втрату інформації.
Ми не можемо обирати з упевненістю, оскільки ми не знаємо ''f''. Проте {{Harvtxt|Akaike|1974}} показав, що за допомогою ІКА ми можемо оцінити, наскільки більше (або менше) інформації втрачається моделлю ''g''<sub>1</sub>, аніж моделлю ''g''<sub>2</sub>. Ця оцінка, проте, є вірною лише [[Асимптотичний аналіз|асимптотично]]; якщо кількість точок даних є малою, то часто є необхідним додаткове коригування (див. ІКАк нижче).


Ми не можемо обирати з упевненістю, оскільки не знаємо ''f''. Проте {{Harvnb|Акаіке|1974}} показав, що за допомогою ІКА ми можемо оцінити, наскільки більше (або менше) інформації втрачається моделлю ''g''<sub>1</sub>, аніж моделлю ''g''<sub>2</sub>. Ця оцінка, проте, є вірною лише {{Нп|Асимптотична теорія (статистика)|асимптотично||Asymptotic theory (statistics)}}: якщо кількість точок даних є малою, то часто є необхідним додаткове коригування (див. [[#ІКАк|§ ІКАк]] нижче).
== Як застосовувати ІКА на практиці ==


Зауважте, що ІКА не каже нічого про абсолютну якість моделі, лише про якість відносно інших моделей. Таким чином, якщо всі моделі-кандидати пристосовуються погано, ІКА не видасть жодного попередження про це. Отже, після обрання моделі за допомогою ІКА, зазвичай доброю практикою є підтвердити абсолютну якість моделі. Таке підтвердження зазвичай включає перевірку [[Похибки та залишки|залишків]] моделі (щоби визначити, чи виглядають залишки випадковими), та перевірки передбачувань моделі. Докладніше з цієї теми див {{нп|затверджування статистичної моделі|||Statistical model validation}}.
Для застосування ІКА на практиці ми починаємо з набору моделей-кандидатів, а потім знаходимо відповідні значення ІКА моделей. Втрата інформації буде майже завжди, із-за застосування моделі-кандидата для представлення «справжньої» моделі (тобто процесу, що породжує дані). Серед моделей-кандидатів ми хочемо обрати таку, що мінімізує втрату інформації. Ми не можемо обирати з упевненістю, але ми можемо мінімізувати оцінювані втрати інформації.


== Як використовувати ІКА на практиці ==
Припустімо, що є ''R'' моделей-кандидатів. Позначмо значення ІКА ({{lang-en|AIC}}) для цих моделей через AIC<sub>1</sub>, AIC<sub>2</sub>, AIC<sub>3</sub>, &hellip;, AIC<sub>''R''</sub>. Нехай AIC<sub>min</sub> буде мінімальним із цих значень. Тоді exp((AIC<sub>min</sub>&#8239;&minus;&#8239;AIC<sub>''i''</sub>)/2) можна інтерпретувати як відносну ймовірність того, що ''i''-та модель мінімізує (оцінювану) втрату інформації.{{sfn|Burnham|Anderson|2002|loc=&sect;6.4.5}}


Для застосування ІКА на практиці ми починаємо з набору моделей-кандидатів, а потім знаходимо відповідні значення ІКА цих моделей. Через застосування моделі-кандидата для представлення «справжньої моделі», тобто процесу, що породив дані, втрата інформації буде майже завжди. Серед моделей-кандидатів ми хочемо обрати таку, що мінімізує цю втрату інформації. Ми не можемо обирати з упевненістю, але ми можемо мінімізувати оцінювану втрату інформації.
Як приклад, припустімо, що є три моделі-кандидати, значеннями ІКА яких є 100, 102 та 110. Тоді друга модель є в exp((100&#8239;&minus;&#8239;102)/2) = 0.368 разів імовірнішою за першу модель для мінімізації втрати інформації. Аналогічно, третя модель є в exp((100&#8239;&minus;&#8239;110)/2) = 0.007 разів імовірнішою за першу для мінімізації втрати інформації.


Припустімо, що є ''R'' моделей-кандидатів. Позначмо значення ІКА ({{lang-en|AIC}}) для цих моделей через AIC<sub>1</sub>, AIC<sub>2</sub>, AIC<sub>3</sub>, ..., AIC<sub>''R''</sub>. Нехай AIC<sub>min</sub> буде мінімальним із цих значень. Тоді величину exp((AIC<sub>min</sub>&#8239;−&thinsp;AIC<sub>''i''</sub>)/2) можливо інтерпретувати як пропорційну до ймовірності того, що ''i''-та модель мінімізує (оцінювану) втрату інформації.{{sfn|Бернем|Андерсон|2002|loc=§2.9.1, §6.4.5}}
В цьому прикладі ми опустимо третю модель із подальшого розгляду. Тоді ми матимемо три варіанти: (1) зібрати більше даних у надії, що це дозволить здійснити чітке розрізнення між першими двома моделями; (2) просто зробити висновок, що дані є недостатніми для підтримки вибору моделі з-поміж цих двох; (3) взяти зважене середнє перших двох моделей з ваговими коефіцієнтами 1 та 0.368 відповідно, і потім здійснювати [[статистичне висновування]] на основі зваженої мультимоделі.{{sfn|Burnham|Anderson|2002}}


Як приклад, припустімо, що є три моделі-кандидати, значеннями ІКА яких є 100, 102 та 110. Тоді друга модель є в exp((100&#8239;−&thinsp;102)/2) = 0.368 разів імовірнішою за першу модель для мінімізації втрати інформації. Аналогічно, третя модель є в exp((100&#8239;−&thinsp;110)/2) = 0.007 разів імовірнішою за першу для мінімізації втрати інформації.
Величина exp((AIC<sub>min</sub>&#8239;&minus;&#8239;AIC<sub>''i''</sub>)/2) є [[Відносна правдоподібність|''відносною правдоподібністю'']] моделі ''i''.


В цьому прикладі ми опустимо третю модель із подальшого розгляду. Тоді ми матимемо три варіанти: (1) зібрати більше даних у надії, що це дозволить здійснити чітке розрізнення між першими двома моделями; (2) просто зробити висновок, що дані є недостатніми для підтримки обрання моделі з-поміж цих двох; (3) взяти зважене середнє перших двох моделей з ваговими коефіцієнтами, пропорційними 1 та 0.368 відповідно, і потім здійснювати [[статистичне висновування]] на основі зваженої {{нп|Ансамблеве навчання|мультимоделі||Ensemble learning}}.{{sfn|Бернем|Андерсон|2002}}
Якщо всі моделі в наборі кандидатів мають однакове число параметрів, то застосування ІКА може спершу здаватися дуже схожим на застосування [[Перевірка відношенням правдоподібностей|перевірки відношенням правдоподібностей]]. Проте є істотні відмінності. Зокрема, перевірка відношенням правдоподібностей є чинною лише для [[Вкладені статистичні моделі|вкладених моделей]], тоді як ІКА (та ІКАк) не мають такого обмеження.{{sfn|Burnham|Anderson|2002|loc=&sect;2.12.4}}


Величина exp((AIC<sub>min</sub>&#8239;−&thinsp;AIC<sub>''i''</sub>)/2) є відомою як ''[[відносна правдоподібність]]'' моделі ''i''. Вона є тісно пов'язаною з відношенням правдоподібностей, що використовують у [[Перевірка відношенням правдоподібностей|перевірці відношенням правдоподібностей]]. Дійсно, якщо всі моделі в наборі кандидатів мають однакове число параметрів, то застосування ІКА може спершу здаватися дуже схожим на застосування перевірки відношенням правдоподібностей. Проте є істотні відмінності. Зокрема, перевірка відношенням правдоподібностей є чинною лише для [[Вкладені статистичні моделі|вкладених моделей]], тоді як ІКА (та ІКАк) не мають такого обмеження.{{sfn|Бернем|Андерсон|2002|loc=§2.12.4}}{{sfn|Мерта|2014}}
== ІКАк ==


== Перевірка гіпотез ==
'''ІКАк''' ({{lang-en|AICc}})&nbsp;— це ІКА з коригуванням для скінченних розмірів вибірок. Формула ІКАк залежить від статистичної моделі. За припущення, що модель є рівномірною, лінійною та має нормально розподілені [[Похибки та залишки|залишки]] (обумовлені [[Регресор|регресорами]]), формула ІКАк є такою:{{sfn|Burnham|Anderson|2002}}{{sfn|Cavanaugh|1997}}


Кожну [[Перевірка статистичних гіпотез|перевірку статистичних гіпотез]] може бути сформульовано як порівняння статистичних моделей. Отже, кожну перевірку статистичних гіпотез може бути відтворено через ІКА. У підрозділах нижче коротко описано два приклади. Деталі для цих прикладів, та набагато більше прикладів, наведено в {{Harvnb|Сакамото|Ісіґуро|Кітаґава||1986|loc=Частина&nbsp;II}} та {{Harvnb|Конісі|Кітаґава|2008|loc=гл.&nbsp;4}}.
: <math>\mathrm{AICc} = \mathrm{AIC} + \frac{2k(k + 1)}{n - k - 1}</math>


=== Відтворення ''t''-критерію Стьюдента ===
де ''n'' позначає розмір вибірки, а ''k'' позначає кількість параметрів.


Як приклад перевірки гіпотез, розгляньмо [[t-критерій Стьюдента|''t''-критерій]] для порівнювання середніх значень двох [[Нормальний розподіл|нормально розподілених]] [[Генеральна сукупність|сукупностей]]. Вхід до ''t''-критерію складається з випадкової вибірки з кожної з цих двох сукупностей.
Якщо припущення про рівномірну лінійну модель з нормальними залишками не виконується, то формула ІКАк в загальному випадку зміниться. Незважаючи на це, {{Harvtxt|Burnham|Anderson|2002|loc=&sect;7.4}} радить застосовувати наведену вище формулу, якщо точніше коригування не відоме. Подальше обговорення цієї формули, з прикладами та іншими припущеннями, наводиться в {{Harvtxt|Burnham|Anderson|2002|loc=гл. 7}} та {{Harvtxt|Konishi|Kitagawa|2008|loc=гл. 7&ndash;8}}. Зокрема, за інших припущень, часто є придатною [[Статистичний бутстреп|бутстрепова оцінка]].


Щоби сформулювати цей критерій як порівняння моделей, ми будуємо дві різні моделі. Перша модель моделює ці дві сукупності як такі, що мають потенційно різні середні значення та стандартні відхилення. Фунція правдоподібності для першої моделі відтак є добутком правдоподібностей для двох різних нормальних розподілів, тож вона має чотири параметри: {{math| ''μ''<sub>1</sub>, ''σ''<sub>1</sub>, ''μ''<sub>2</sub>, ''σ''<sub>2</sub>}}. Щоби бути точними, ця [[функція правдоподібності]] є наступною (із позначенням розмірів виборок через {{math| ''n''<sub>1</sub>}} and {{math|''n''<sub>2</sub>}}).
ІКАк є, по суті, ІКА з більшим штрафом за додаткові параметри. Застоування ІКА замість ІКАк, якщо ''n'' не в багато разів більше за ''k''<sup>2</sup>, збільшує ймовірність вибору моделей, що мають забагато параметрів, тобто [[перенавчання]]. В деяких випадках імовірність перенавчання ІКА може бути значною.{{sfn|Claeskens|Hjort|2008|loc=&sect;8.3}}{{sfn|Giraud|2015|loc=&sect;2.9.1}}


: <math>
{{Harvtxt|Burnham|Anderson|2002}} наполегливо радять застосовувати ІКАк замість ІКА, якщо ''n'' є маленькою, або ''k'' є великою. Оскільки ІКАк збігається до ІКА, коли ''n'' стає великим, то, як правило, в будь-якому разі потрібно застосовувати ІКАк.{{sfn|Burnham|Anderson|2004}}
\mathcal{L}(\mu_1,\sigma_1,\mu_2,\sigma_2) \, = \,
</math>
: <math> \; \; \; \; \; \; \; \;
\prod_{i=1}^{n_1} \frac{1}{\sqrt{2 \pi}\sigma_1} \exp\left( -\frac{(x_i-\mu_1)^2}{2\sigma_1^2}\right) \; \, \boldsymbol\cdot \,
\prod_{i=n_1+1}^{n_1+n_2} \frac{1}{\sqrt{2 \pi}\sigma_2} \exp\left( -\frac{(x_i-\mu_2)^2}{2\sigma_2^2}\right)
</math>

Друга модель моделює ці дві сукупності як такі, що мають однакові середні, але потенційно різні стандартні відхилення. Функція правдоподібності для другої моделі відтак встановлює в наведеному вище рівнянні {{math|''μ''<sub>1</sub> {{=}} ''μ''<sub>2</sub>}}, тож вона має три параметри.

Потім ми максимізуємо ці функції правдоподібності для цих двох моделей (на практиці ми максимізуємо функції логарифмічної правдоподібності), після чого стає просто обчислити значення ІКА цих моделей. Далі ми обчислюємо відносну правдоподібність. Наприклад, якщо друга модель виявиться лише в 0.01 разів правдоподібнішою за першу, то ми виключимо другу модель із подальшого розгляду: тож ми зробимо висновок, що ті дві сукупності мають різні середні.

''t''-критерій виходить із того, що дві сукупності мають ідентичні стандартні відхилення. Цей критерій схильний бути ненадійним, якщо це припущення є хибним, а також якщо розміри двох виборок є дуже різними ({{нп|t-критерій Велша|''t''-критерій Велша||Welch's t-test}} був би кращим). Порівнювання середніх значень через ІКА, як у прикладі вище, має перевагу, бо не спирається на це припущення.

=== Порівнювання наборів категорійних даних ===

Як інший приклад перевірки гіпотез, припустімо, що ми маємо дві сукупності, й кожен із членів кожної сукупності перебуває в одній з двох [[Категорійна змінна|категоій]]: категорії №1, або категорії №2. Кожна з сукупностей є [[Біноміальний розподіл|розподіленою біноміально]]. Ми хочемо знати, чи є розподіли цих двох сукупностей однаковими. Нам дали випадкову вибірку з кожної з двох сукупностей.

Нехай {{math|''m''}} буде розміром вибірки з першої сукупності. Нехай {{math|''m''<sub>1</sub>}} буде числом спостережень (у цій вибірці) в категорії №1, тож числом спостережень у категорії №2 буде {{math|''m'' − ''m''<sub>1</sub>}}. Аналогічно, нехай {{math|''n''}} буде розміром вибірки з другої сукупності. Нехай {{math|''n''<sub>1</sub>}} буде числом спостережень (у цій вибірці) в категорії №1.

Нехай {{mvar|p}} буде ймовірністю того, що випадково обраний член першої сукупності перебуває в категорії №1. Отже, ймовірністю того, що випадково обраний член першої сукупності перебуває в категоії №2, буде {{math|1&thinsp;−&thinsp;''p''}}. Зауважте, що розподіл першої сукупності має один параметр. Нехай {{mvar|q}} буде ймовірністю того, що випадково обраний член другої сукупності перебуває в категоії №1. Зауважте, що розподіл друої сукупності також має один параметр.

Щоби порівняти розподіли цих двох сукупностей, ми будуємо дві різні моделі. Перша модель моделює, що ці дві сукупності мають потенційно різні біноміальні розподіли. Функцією правдоподібності для першої моделі відтак є добуток правдоподібностей для двох відмінних біноміальних розподілів, тож вона має два параметри: {{mvar|p}}, {{mvar|q}}. Щоби бути точними, ця функція правдоподібності є наступною:

: <math>
\mathcal{L}(p,q) \, = \,
\frac{m!}{m_1! (m-m_1)!} p^{m_1} (1-p)^{m-m_1} \; \, \boldsymbol\cdot \; \;
\frac{n!}{n_1! (n-n_1)!} q^{n_1} (1-q)^{n-n_1}
</math>

Друга модель моделює, що ці дві сукупності мають один і той же розподіл. Функція правдоподібності для другої моделі відтак встановлює в наведеному вище рівнянні {{math|''p'' {{=}} ''q''}}, тож ця друга модель має один параметр.

Потім ми максимізуємо ці функції правдоподібності для цих двох моделей (на практиці ми максимізуємо функції логарифмічної правдоподібності), після чого стає просто обчислити значення ІКА цих моделей. Далі ми обчислюємо відносну правдоподібність. Наприклад, якщо друга модель виявилася лише в 0.01 разів правдоподібнішою за першу, то ми виключимо другу модель з подальшого розгляду: тож ми можемо зробити висновок, що ці дві сукупності мають різні розподіли.

== Засади статистики ==

[[Статистичне висновування]] розглядають як таке, що складається з перевіряння та [[Статистична оцінка|оцінювання]] гіпотез. Перевіряння гіпотез можливо здійснювати за допомогою ІКА, як обговорено вище. Стосовно оцінювання, існує два типи: [[точкове оцінювання]] та {{Нп|інтервальне оцінювання|||Interval estimation}}. Точкове оцінювання можливо здійснювати в межах парадигми ІКА: його забезпечує [[оцінка максимальної правдоподібності]]. Інтервальне оцінювання також можливо здійснювати в межах парадигми ІКА: його забезпечують [[Інтервал правдоподібності|інтервали правдоподібності]]. Отже, статистичне висновування загалом можливо здіснювати в межах парадигми ІКА.

Найширше вживаними парадигмами статистичного висновування є [[частотницьке висновування]] та [[баєсове висновування]]. Проте ІКА можливо використовувати для статистичного висновування без покладання як на частотницьку парадигму, так і на баєсову, оскільки ІКА можливо інтерпретувати без допомоги [[Статистична значущість|рівнів значущості]] та [[Баєсове апріорне|баєсових апріорних]].{{sfn|Бернем|Андерсон|2002|p=99}} Іншими словами, ІКА може бути використано для формування {{нп|Засади статистики|засад статистики||Foundations of statistics}}, відмінних як від частотництва, так і від баєсівства.{{sfn|Бандьопадхяя|Форстер|2011}}{{sfn|Сакамото|Ісіґуро|Кітаґава||1986}}

== {{anchor|ІКАк}}Видозміна для маленького розміру вибірки ==

Коли розмір [[Вибірка|вибірки]] є маленьким, існує реальна йморвіність того, що ІКА обиратиме моделі, які мають забагато параметрів, тобто, що ІКА [[Перенавчання|перенавчатиметься]].{{sfn|МакКуоррі|Цай|1998}}{{sfn|Клаескенс|Йорт|2008|loc= §8.3}}{{sfn|Жиро|2015|loc= §2.9.1}} Для подолання такого потенційного перенавчання було розроблено ІКАк: це ІКА з коригуванням для маленьких розмірів виборок.

Формула ІКАк залежить від статистичної моделі. Якщо виходити з того, що модель є {{нп|Одновимірність|одновимірною||Univariate}}, лінійною відносно своїх параметрів, та має нормально розподілені [[Похибки та залишки|залишки]] (обумовлені [[регресор]]ами), то формула ІКАк є такою:{{sfn|Кавано|1997}}{{sfn|Бернем|Андерсон|2002|loc=§2.4}}

: <math>\mathrm{AICc} \, = \, \mathrm{AIC} + \frac{2k^2 + 2k}{n - k - 1}</math>

де ''n'' позначає розмір вибірки, а ''k'' позначає кількість параметрів. Таким чином, ІКАк по суті є ІКА з додатковим членом штрафу на число параметрів. Зауважте, що коли {{math|''n'' → ∞}}, цей додатковий член штрафу збігається до 0, і відтак ІКАк збігається до ІКА.{{sfn|Бернем|Андерсон|2004}}

Якщо припущення про те, що модель є одновимірною та лінійною з нормальними залишками, не виконується, то формула ІКАк в загальному випадку відрізнятиметься від наведеної вище. Для деяких моделей визначити цю формулу може бути складно. Втім, для кожної моделі, для якої існує ІКАк, формула ІКАк задається як ІКА плюс член, який включає як {{math|''k''}}, так і {{math|''k''}}<sup>2</sup>. Для порівняння, формула ІКА включає {{math|''k''}}, але не {{math|''k''}}<sup>2</sup>. Іншими словами, ІКА є {{нп|Наближення першого порядку|оцінкою першого порядку||First order approximation}} (втрат інформації), в той час як ІКАк є {{нп|Наближення другого порядку|оцінкою другого порядку||Second order approximation}}.{{sfn|Бернем|Андерсон|2002|loc=§7.4}}


Подальше обговорення цієї формули, з прикладами та іншими припущеннями, наведено в {{Harvnb|Бернем|Андерсон|2002|loc=гл.&nbsp;7}} та {{Harvnb|Конісі|Кітаґава|2008|loc=гл.&nbsp;7–8}}. Зокрема, за інших припущень, часто є придатною [[Статистична натяжка|натяжкова оцінка]] цієї формули.
{{Harvtxt|Brockwell|Davis|1991|p=273}} радять застосовувати ІКАк як головний критерій у вибору порядків [[Модель авторегресії — ковзного середнього|моделі авторегресії&nbsp;— ковзного середнього]] для часових рядів. {{Harvtxt|McQuarrie|Tsai|1998}} ґрунтують свою високу думку про ІКАк на обширній роботі симуляції з регресією та часовими рядами.


Зауважте, що якщо всі моделі-кандидати мають однакову ''k'', то ІКАк та ІКА даватимуть ідентичні (відносно) оцінки; отже, не буде недоліку в застосуванні ІКА замість ІКАк. Крім того, якщо ''n'' у багато разів більше за ''k''<sup>2</sup>, то коригування буде незначним; отже, недоліки застосування ІКА замість ІКАк будуть незначними.
Щоби підсумувати, ІКАк має перевагу в схильності бути точнішим за ІКА (особливо для малих виборок), але ІКАк також має недолік іноді бути набагато складнішим для обчислення, ніж ІКА. Зауважте, що якщо всі моделі-кандидати мають однакову {{math|''k''}} та однакові формули ІКАк, то ІКАк та ІКА даватимуть ідентичні (відносно) оцінки. Отже, не буде недоліку в застосуванні ІКА замість ІКАк. Крім того, якщо {{math|''n''}} у багато разів більше за {{math|''k''}}<sup>2</sup>, то додатковий член штрафу буде незначним, а отже, незначними будуть і недоліки застосування ІКА замість ІКАк.


== Історія ==
== Історія ==
[[Файл:Akaike.jpg|thumb|{{нп|Хіроцуґу Акаіке||ja|赤池弘次}}]]


Інформаційний критерій Акаіке було розроблено {{нп|Хіроцуґу Акаіке||ja|赤池弘次}}, початково під назвою «інформаційний критерій». Про нього було вперше заявлено Акаіке на симпозіумі 1971 року, протокол якого було опубліковано 1973 року.{{sfn|Akaike|1973}} Публікація 1973 року, однак, була лише неформальним представленням концепції.{{sfn|deLeeuw|1992}} Перша формальна публікація була в праці Акаіке 1974 року.{{sfn|Akaike|1974}} Станом на жовтень 2014 року праця 1974 року отримала понад 14000 цитувань в [[Web of Science]], ставши 73-тьою найцитованішою працею за всі часи.<ref>Van Noordon R., Maher B., Nuzzo R. (2014), "[http://www.nature.com/top100 The top 100 papers]", ''[[Nature]]'', 514. {{ref-en}}</ref>
Інформаційний критерій Акаіке було сформульовано статистиком {{нп|Хіроцуґу Акаіке|||Hirotugu Akaike}}. Первинно його було названо «інформаційним критерієм».{{sfn|Фіндлі|Парцен|1995}} Англійською про нього було вперше заявлено Акаіке на симпозіумі 1971 року, протокол якого було опубліковано 1973 року.{{sfn|Фіндлі|Парцен|1995}}{{sfn|Акаіке|1973}} Публікація 1973 року, однак, була лише неформальним представленням цих понять.{{sfn|де Лев|1992}} Першою формальною публікацією була праця Акаіке 1974 року.{{sfn|Акаіке|1974}} Станом на жовтень 2014 року праця 1974 року отримала понад 14&nbsp;000 цитувань в [[Web of Science]], ставши 73-тьою найцитованішою працею за всі часи.<ref>Van Noordon R., Maher B., Nuzzo R. (2014), "[http://www.nature.com/top100 The top 100 papers]", ''[[Nature]]'', 514. {{ref-en}}</ref>


На сьогодні ІКА став настільки поширеним, що його часто використовують без цитування праці Акаіке 1974 року. Дійсно, існує понад 150&nbsp;000 наукових статей/книг, що використовують ІКА (за оцінкою [[Google Scholar]]).<ref>[https://scholar.google.com/scholar?as_vis=0&q=Akaike+AIC&as_sdt=1,5 Джерела, що містять як «Akaike», так і «AIC»,] на [[Google Scholar]].</ref>
Початкове виведення ІКА покладалося на деякі сильні припущення. {{Harvtxt|Takeuchi|1976}} показав, що ці припущення може бути зроблено значно слабшими. Але праця Такеуті була японською, і не була широко відомою за межами Японії протягом багатьох років.


Початкове виведення ІКА покладалося на деякі сильні припущення. {{Harvnb|Такеуті|1976}} показав, що ці припущення може бути зроблено значно слабшими. Але праця Такеуті була японською, і не була широко відомою за межами Японії протягом багатьох років.
ІКАк початково запропонував для [[Лінійна регресія|лінійної регресії]] (лише) {{Harvtxt|Sugiura|1978}}. Це спровокувало працю {{Harvtxt|Hurvich|Tsai|1989}} та кілька подальших праць цих же авторів, що розширили ситуації, в яких може застосовуватися ІКА. Праця Hurvich & Tsai посприяла рішенню опублікувати другий випуск книги {{Harvtxt|Brockwell|Davis|1991}}, що є стандартним довідником з лінійних часових рядів; це друге видання вказує, що «нашим головним критерієм для вибору моделі [серед [[Модель авторегресії — ковзного середнього|моделей авторегресії&nbsp;— ковзного середнього]]] буде ІКАк».{{sfn|Brockwell|Davis|1991|p=273}}


ІКАк початково запропонував для [[Лінійна регресія|лінійної регресії]] (лише) {{Harvnb|Суґіура|1978}}. Це спровокувало працю {{Harvnb|Гурвич|Цай|1989}} та кілька подальших праць цих же авторів, що розширили ситуації, в яких можливо застосовувати ІКАк.
Першим загальним викладом підходу теорії інформації була книга {{Harvtxt|Burnham|Anderson|2002}}. Вона включає англомовне представлення праці Такеуті. Ця книга призвела до поширення застосування ІКА, і наразі вона має понад 29000 цитувань на [[Google Scholar]].


Першим загальним викладом підходу теорії інформації була книга {{Harvnb|Бернем|Андерсон|2002}}. Вона включає англомовне представлення праці Такеуті. Ця книга призвела до поширення застосування ІКА, і наразі вона має понад 48&nbsp;000 цитувань на [[Google Scholar]].
Акаіке початково назвав свій підхід «принципом максимізації ентропії», оскільки його засновано на понятті [[Інформаційна ентропія|ентропії в теорії інформації]]. Дійсно, мінімізація ІКА в статистичній моделі є дієво рівнозначною максимізації ентропії в [[Термодинамічна система|термодинамічній системі]]; іншими словами, підхід теорії інформації в статистиці є по суті застосуванням [[Другий закон термодинаміки|другого закону термодинаміки]]. По суті, ІКА має корені в праці [[Людвіг Больцман|Людвіга Больцмана]] про [[Ентропія|ентропію]]. Більше про ці питання див. {{Harvtxt|Akaike|1985}} та {{Harvtxt|Burnham|Anderson|2002|loc=гл.&nbsp;2}}.

Акаіке назвав свій підхід «принципом максимізації ентропії», оскільки він ґрунтується на понятті [[Інформаційна ентропія|ентропії в теорії інформації]]. Дійсно, мінімізація ІКА в статистичній моделі є фактично рівнозначною максимізації ентропії в [[Термодинамічна система|термодинамічній системі]]; іншими словами, підхід теорії інформації в статистиці є по суті застосуванням [[Другий закон термодинаміки|другого закону термодинаміки]]. По суті, ІКА має корені в праці [[Людвіг Больцман|Людвіга Больцмана]] про [[Ентропія|ентропію]]. Більше про ці питання див. {{Harvnb|Акаіке|1985}} та {{Harvnb|Бернем|Андерсон|2002|loc=гл.&nbsp;2}}.


== Поради щодо застосування ==
== Поради щодо застосування ==
Рядок 64: Рядок 117:
=== Підрахунок параметрів ===
=== Підрахунок параметрів ===


[[Статистична модель]] мусить відповідати всім точкам даних. Таким чином, пряма лінія сама по собі не є моделлю даних, якщо не всі точки даних лежать точно на цій лінії. Проте ми можемо обрати модель, яка є «прямою лінією плюс шум»; таку модель може бути формально описано таким чином: ''y''<sub>''i''</sub>&nbsp;= ''b''<sub>0</sub>&nbsp;+ ''b''<sub>1</sub>''x''<sub>''i''</sub>&nbsp;+ ε<sub>''i''</sub>. Тут ε<sub>''i''</sub> є [[Похибки та залишки|залишками]] від влучання в пряму лінію. Якщо ε<sub>''i''</sub> вважаються [[Нормальний розподіл|гаусовими]] [[Незалежні однаково розподілені випадкові величини|НОР]] (з нульовим середнім значенням), то модель має три параметри: ''b''<sub>0</sub>, ''b''<sub>1</sub> та дисперсію гаусових розподілів. Отже, при обчисленні ІАК для цієї моделі ми повинні використовувати ''k''=3. Загальніше, для будь-якої моделі [[Метод найменших квадратів|найменших квадратів]] з гаусовими НОР залишками дисперсія розподілів залишків повинна рахуватися як один з параметрів.{{sfn|Burnham|Anderson|2002|p=63}}
[[Статистична модель]] мусить [[Пристосованість (статистика)|пристосовуватися]] до всіх точок даних. Таким чином, пряма лінія сама по собі не є моделлю даних, якщо не всі точки даних лежать точно на цій лінії. Проте ми можемо обрати модель, яка є «прямою лінією плюс шум»; таку модель може бути формально описано таким чином: ''y''<sub>''i''</sub>&nbsp;= ''b''<sub>0</sub>&nbsp;+ ''b''<sub>1</sub>''x''<sub>''i''</sub>&nbsp;+ ''ε''<sub>''i''</sub>. Тут ''ε''<sub>''i''</sub> є [[Похибки та залишки|залишками]] від пристосовування прямої лінії. Якщо ''ε''<sub>''i''</sub> вважаються [[Нормальний розподіл|гаусовими]] [[Незалежні однаково розподілені випадкові величини|НОР]] (з нульовим середнім значенням), то модель має три параметри: ''b''<sub>0</sub>, ''b''<sub>1</sub> та дисперсію цих гаусових розподілів. Отже, при обчисленні ІКА цієї моделі ми повинні використовувати ''k''=3. Загальніше, для будь-якої моделі [[Метод найменших квадратів|найменших квадратів]] з гаусовими НОР залишками дисперсія розподілів залишків повинна рахуватися як один з параметрів.{{sfn|Бернем|Андерсон|2002|p=63}}


Як інший приклад розгляньмо {{нп|Авторегресійна модель|авторегресійну модель||Autoregressive model}} першого порядку, визначену як ''x''<sub>''i''</sub>&nbsp;= ''c''&nbsp;+ ''φx''<sub>''i''&minus;1</sub>&nbsp;+ ε<sub>''i''</sub>, де ε<sub>''i''</sub> є гаусовими НОР (з нульовим середнім значенням). У випадку цієї моделі існує три параметри: ''c'', ''φ'' та дисперсія ε<sub>''i''</sub>. Загальніше, авторегресійна модель ''p''-того порядку має ''p''&nbsp;+ 2 параметри. (Проте, якщо ''c'' не оцінюється, а задане завчасно, тоді є лише ''p''&nbsp;+ 1 параметрів.)
Як інший приклад розгляньмо {{нп|Авторегресійна модель|авторегресійну модель||Autoregressive model}} першого порядку, визначену як ''x''<sub>''i''</sub>&nbsp;= ''c''&nbsp;+ ''φx''<sub>''i''&minus;1</sub>&nbsp;+ ''ε''<sub>''i''</sub>, де ''ε''<sub>''i''</sub> є гаусовими НОР (з нульовим середнім значенням). У випадку цієї моделі існує три параметри: ''c'', ''φ'' та дисперсія ''ε''<sub>''i''</sub>. Загальніше, авторегресійна модель ''p''-того порядку має ''p''&#8239;+&thinsp;2 параметри. (Проте, якщо ''c'' не оцінюється з даних, а є натомість заданим заздалегідь, тоді параметрів є лише ''p''&#8239;+&thinsp;1.)


=== Перетворення даних ===
=== Перетворювання даних ===


Значення АІК для всіх моделей-кандидатів мусять обчислюватися на одному й тому ж наборі даних. Проте іноді нам може захотітися порівняти модель даних із моделлю логарифму даних; загальніше, нам може захотітися порівняти модель даних із моделлю перетворених даних. Ось ілюстрація, як давати раду перетворенням даних (пристосована з {{Harvtxt|Burnham|Anderson|2002|loc= &sect;2.11.3}}).
Значення ІКА для всіх моделей-кандидатів мусить бути обчислювано на одному й тому ж наборі даних. Проте іноді нам може захотітися порівняти модель [[Змінна відгуку|змінної відгуку]], {{math|''y''}}, із моделлю логарифму змінної відгуку, {{math|log(''y'')}}. Загальніше, нам може захотітися порівняти модель даних із моделлю [[Перетворення даних (статистика)|перетворених даних]]. Далі наведено ілюстрацію того, як давати раду перетворенням даних (пристосовано з {{Harvnb|Бернем|Андерсон|2002|loc=§2.11.3}}: «Дослідники повинні бути впевнені, що моделюють всі гіпотези, застосовуючи одну й ту ж змінну відгуку»).


Припустімо, що ми хочемо порівнювати дві моделі: [[нормальний розподіл]] даних та нормальний розподіл логарифму даних. Ми ''не'' повинні порівнювати значення ІКА двох моделей напряму. Натомість ми повинні перетворити нормальну [[Функція розподілу ймовірностей|інтегральну функцію розподілу]], щоби спочатку взяти логарифм даних. Для здійснення цього нам потрібно виконати відповідне {{нп|інтегрування підстановкою|||Integration by substitution}}: таким чином, нам потрібно помножити на похідну функції [[Натуральний логарифм|(натурального) логарифму]], що є 1/''x''. Отже, перетворений розподіл має наступну [[Густина імовірності|функцію густини ймовірності]]:
Припустімо, що ми хочемо порівнювати дві моделі: одну з [[Нормальний розподіл|нормальним розподілом]] {{math|''y''}}, та одну з нормальним розподілом {{math|log(''y'')}}. Ми ''не'' повинні порівнювати значення ІКА двох моделей напряму. Натомість ми повинні перетворити нормальну [[Функція розподілу ймовірностей|кумулятивну функцію розподілу]], щоби спочатку взяти логарифм {{math|''y''}}. Для здійснення цього нам потрібно виконати відповідне {{нп|інтегрування підставлянням|||Integration by substitution}}: таким чином, нам потрібно помножити на похідну функції [[Натуральний логарифм|(натурального) логарифму]], що є {{math|1/''y''}}. Отже, перетворений розподіл має наступну [[Густина імовірності|функцію густини ймовірності]]:


: <math>x \mapsto \, \frac{1}{x} \frac{1}{\sqrt{2\pi\sigma^2}}\,\exp \left(-\frac{\left(\ln x-\mu\right)^2}{2\sigma^2}\right)</math>
: <math>y \mapsto \, \frac{1}{y} \frac{1}{\sqrt{2\pi\sigma^2}}\,\exp \left(-\frac{\left(\ln y-\mu\right)^2}{2\sigma^2}\right)</math>


що є функцією густини ймовірності [[Логнормальний розподіл|логнормального розподілу]]. Тепер ми можемо порівнювати значення ІКА нормальної моделі зі значенням ІКА логнормальної моделі.
що є функцією густини ймовірності [[Логнормальний розподіл|логнормального розподілу]]. Тепер ми можемо порівнювати значення ІКА нормальної моделі зі значенням ІКА логнормальної моделі.
Рядок 80: Рядок 133:
=== Ненадійність програмного забезпечення ===
=== Ненадійність програмного забезпечення ===


Деяке статистичне програмне забезпечення повідомлятиме значення ІКА або максимальне значення логарифмічної функції правдоподібності, але ці значення не завжди є правильними. Як правило, неправильність спричинюється нехтуванням сталою в логарифмічній функції правдоподібності. Наприклад, логарифмічною функцією правдоподібності для ''n'' [[Незалежність (теорія ймовірностей)|незалежних]] ідентичних [[Нормальний розподіл|нормальних розподілів]] є
Деяке статистичне програмне забезпечення повідомлятиме значення ІКА або максимальне значення функції логарифмічної правдоподібності, але ці значення не завжди є правильними. Як правило, неправильність спричинюється нехтуванням сталою в логарифмічній функції правдоподібності. Наприклад, функцією логарифмічної правдоподібності для {{math|''n''}} [[Незалежність (теорія ймовірностей)|незалежних]] ідентичних [[Нормальний розподіл|нормальних розподілів]] є


: <math>
: <math>
\ln\mathcal{L}(\mu,\sigma^2)
\ln\mathcal{L}(\mu,\sigma)
= -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2
\, = \, -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2
</math>
</math>


Це є функцією, що максимізується при отриманні значення ІКА. Проте деяке програмне забезпечення нехтує членом <span style="font-family:serif; font-size:105%">(''n''/2)ln(2''&pi;'')</span>, і таким чином повідомляє помилкові значення максимумів логарифмічних правдоподібностей, і, відтак, ІКА. Такі помилки не мають значення для порівнянь на базі ІКА, ''якщо'' всі моделі мають нормально розподілені [[Похибки та залишки|залишки]], оскільки тоді помилки взаємно компенсуються. Проте в загальному випадку сталий член потребує включення до логарифмічної функції правдоподібності.{{sfn|Burnham|Anderson|2002|p=82}} Отже, перш ніж застосовувати програмне забезпечення для обчислення ІКА, в загальному випадку є гарною звичкою виконати якісь прості перевірки на цьому програмному забезпеченні, щоби переконатися, що значення функцій є правильними.
Це є функцією, що максимізують при отримуванні значення ІКА. Проте деяке програмне забезпечення нехтує сталим членом {{math|(''n''/2){{resize|20%|&thinsp;}}ln(2''π'')}}, і таким чином повідомляє помилкові значення максимумів логарифмічних правдоподібностей, і, відтак, ІКА. Такі помилки не мають значення для порівнянь на основі ІКА, ''якщо'' всі моделі мають нормально розподілені [[Похибки та залишки|залишки]], оскільки тоді помилки взаємно компенсуються. Проте в загальному випадку сталий член потребує включення до функції логарифмічної правдоподібності.{{sfn|Бернем|Андерсон|2002|p=82}} Отже, перш ніж застосовувати програмне забезпечення для обчислення ІКА, в загальному випадку є гарною звичкою виконати якісь прості перевірки на цьому програмному забезпеченні, щоби переконатися, що значення цієї функції є правильними.


== Порівняння з іншими методами вибору моделі ==
== Порівняння з іншими методами обирання моделі ==


=== Порівняння з БІК ===
=== Порівняння з БІК ===


Формула [[Баєсів інформаційний критерій|баєсова інформаційного критерію]] (БІК) є подібною до формули ІКА, але має відмінний штраф на число параметрів. В ІКА цим штрафом є {{math|2''k''}}, тоді як в БІК штрафом є {{math|ln(''n''){{resize|33%|&thinsp;}}''k''}}.
ІКА штрафує кількість параметрів не так сильно, як [[Баєсів інформаційний критерій]] (БІК). Порівняння ІКА/ІКАк та БІК наведено в {{Harvtxt|Burnham|Anderson|2002|loc=&sect;6.4}}. Автори показують, що ІКА та ІКАк може бути виведено в такій самій баєсовій системі, що й БІК, лише застосовуючи інше апріорне. Автори також стверджують, що ІКА/ІКАк має теоретичні переваги над БІК. По-перше, оскільки ІКА/ІКАк виводиться з принципів інформації, а БІК&nbsp;— ні, незважаючи на його назву. По-друге, оскільки виведення БІК (в межах баєсової системи) має апріорне 1/''R'' (де ''R'' є кількістю моделей-кандидатів), що є «не чутливим» ({{lang-en|not sensible}}), оскільки апріорне повинне бути спадною функцією ''k''. Крім того, вони представляють кілька симуляційних досліджень, які наводять на думку, що ІКА має схильність мати практичні/продуктивні переваги над БІК. Див. також {{Harvtxt|Burnham|Anderson|2004}}.


Порівняння ІКА/ІКАк та БІК наведено в {{Harvnb|Бернем|Андерсон|2002|loc=§6.3-6.4}}, з подальшими зауваженнями в {{Harvnb|Бернем|Андерсон|2004}}. Автори показують, що ІКА/ІКАк може бути виведено в такій самій баєсовій системі, що й БІК, просто застосованням інших [[Апріорна ймовірність|апріорних імовірностей]]. Проте, в баєсовім виведенні БІК кожна модель-кандидат має апріорну ймовірність 1/''R'' (де ''R'' є числом моделей-кандидатів). Таке виведення є «не чутливим» ({{lang-en|not sensible}}), оскільки апріорне повинне бути спадною функцією від {{math|''k''}}. Крім того, ці автори представляють кілька імітаційних досліджень, які наводять на думку, що ІКА має схильність мати практичні/продуктивні переваги над БІК.
Подальше порівняння ІКА та БІК, у контексті регресії, наведено в {{Harvtxt|Yang|2005}}. Зокрема, ІКА є асимптотично оптимальним у виборі моделі з найменшою {{нп|Cередньоквадратична похибка|середньоквадратичною похибкою||Mean squared error}}, за припущення, що точна «істинна» модель не входить до набору кандидатів (як практично завжди буває на практиці); БІК не є асимптотично оптимальним за цього припущення. Янг додатково показує, що темп, з яким ІКА збігається до оптимуму, в певному сенсі є найкращим з можливих.


Деякі дослідники підкреслили, що ІКА та БІК підходять для різних задач. Зокрема, вважають, що БІК підходить для обирання «істинної моделі» (тобто, процесу, що породив дані) з набору моделей кандидатів, тоді як ІКА для цього не підходить. Конкретніше, якщо «істинна модель» є присутньою в наборі моделей-кандидатів, то БІК обере цю «істинну модель» з імовірністю 1, за {{math|''n'' → ∞}}. На противагу цьому, при здійсненні обирання за допомогою ІКА, ця ймовірність може бути меншою за 1.{{sfn|Бернем|Андерсон|2002|loc=§6.3-6.4}}{{sfn|Врізе|2012}}{{sfn|Ахо|Дерріберрі|Петерсон|2014}} Прибічники ІКА стверджують, що ця проблема є незначною, оскільки «істинна модель» практично ніколи не буває присутньою в наборі кандидатів. Дійсно, у статистиці є поширеним афоризм, що {{нп|Всі моделі є неправильними|«всі моделі є неправильними»||All models are wrong}}, тож «істинна модель» (тобто, реальність) не може бути в наборі кандидатів.
Детальніше порівняння ІКА та БІК див. у {{Harvtxt|Vrieze|2012}} та {{Harvtxt|Aho|Derryberry|Peterson|2014}}.


Ще одне порівняння ІКА та БІК наведено у {{harvnb|Врізе|2012}}. Врізе представляє імітаційне дослідження, яке дозволяє «істинній моделі» бути в наборі кандидатів (на відміну від практично всіх реальних даних). Це імітаційне дослідження показує, зокрема, що ІКА іноді обирає набагато кращу модель, ніж БІК, навіть коли «істинна модель» перебуває в наборі кандидатів. Причина цього полягає в тім, що для скінченних {{math|''n''}} БІК може мати істотний ризик обрання з набору кандидатів дуже поганої моделі. Ця причина може проявлятися навіть коли {{math|''n''}} є набагато більшим за {{math|''k''}}<sup>2</sup>. З ІКА ризик обрання дуже поганої моделі є мінімальним.
=== Порівняння з перевіркою хі-квадрат ===


Якщо «істинної моделі» в наборі кандидатів немає, то найбільше, що ми можемо сподіватися зробити, це обрати модель, яка найкраще наближує «істинну». ІКА підходить для пошуку найкращої наближувальної моделі, за деяких припущень.{{sfn|Бернем|Андерсон|2002|loc=§6.3-6.4}}{{sfn|Врізе|2012}}{{sfn|Ахо|Дерріберрі|Петерсон|2014}} (Ці припущення включають, зокрема, те, що наближування здійснюють по відношенню до втрати інформації.)
==== Загальний випадок ====


Порівняння ІКА та БІК у контексті [[Регресійний аналіз|регресії]] наведено в {{Harvnb|Янг|2005}}. В регресії ІКА є асимптотично оптимальним для обирання моделі з найменшою {{нп|Cередньоквадратична похибка|середньоквадратичною похибкою||Mean squared error}}, за припущення, що «істинна модель» не перебуває в наборі кандидатів. БІК не є асимптотично оптимальним за цього припущення. Янг додатково показує, що темп, з яким ІКА збігається до оптимуму, в певному сенсі є найкращим з можливих.
Часто ми хочемо обирати серед моделей-кандидатів, в яких всі функції правдоподібності передбачають, що [[Похибки та залишки|залишки]] є нормально розподіленими (з нульовим середнім) та незалежними. Це припущення веде до [[Хі-квадрат тест|перевірок хі-квадрат]], що ґрунтуються на [[Розподіл хі-квадрат|розподілі <span style="font-family:serif; font-size:105%">''χ''</span>²]] (та пов'язані з [[Коефіцієнт детермінації|''R''<sup>2</sup>]]). Застосування перевірок хі-квадрат виявляється пов'язаним із застосуванням ІКА.


=== Порівняння з перехресним затверджуванням ===
Згідно нашого припущення, максимальна правдоподібність задається як


[[Перехресне затверджування]] з виключенням по одному є асимптотично рівнозначним ІКА для звичайних лінійних регресійних моделей.{{sfn|Стоун|1977}} Асимптотична еквівалентність до ІКА також має місце й для [[Змішана модель|моделей зі змішаними рівнями факторів]].{{sfn|Фан|2011}}
: <math>L=\prod_{i=1}^n \left(\frac{1}{2 \pi \hat{\sigma_i}^2}\right)^{1/2} \exp \left( -\sum_{i=1}^{n}\frac{(y_i-f(x_i;\hat{\theta}))^2}{2\hat{\sigma_i}^2}\right)</math>
: <math>\therefore \, \ln(L) = \ln\left(\prod_{i=1}^n\left(\frac{1}{2\pi\hat{\sigma_i}^2}\right)^{1/2}\right) - \frac{1}{2}\sum_{i=1}^n \frac{(y_i-f(x_i;\hat{\theta}))^2}{\hat{\sigma_i}^2}</math>
: <math>\therefore \, \ln(L) = C - \chi^2/2 \,</math>,


=== Порівняння з найменшими квадратами ===
де <span style="font-family:serif; font-size:105%">''C''</span> є сталою, що не залежить від застосовуваної моделі, а залежить лише від використання конкретних точок даних, тобто, вона не змінюється, якщо не змінюються дані.


Іноді кожна з моделей-кандидатів передбачає, що залишки розподілено відповідно до незалежних ідентичних нормальних розподілів (з нульовим середнім). Це дає привід для пристосовування моделей [[Найменші квадрати|найменшими квадратами]].
Таким чином, <span style="font-family:serif; font-size:105%">AIC&nbsp;= 2''k''&nbsp;&minus; 2ln(''L'')&nbsp;= 2''k''&nbsp;&minus; 2(''C''&nbsp;&minus; ''χ''²/2)&nbsp;= 2''k''&nbsp;&minus; 2''C''&nbsp;+ ''χ''²</span>. Оскільки змістовними є лише різниці ІКА, сталу <span style="font-family:serif; font-size:105%">''C''</span> можна ігнорувати, що дозволяє нам брати для порівняння моделей <span style="font-family:serif; font-size:105%">AIC&nbsp;= 2''k''&nbsp;+ ''χ''²</span>.


При пристосовуванні найменшими квадратами [[Оцінка максимальної правдоподібності|оцінкою максимальної правдоподібності]] для дисперсії розподілів залишків моделі є <math>\hat\sigma^2 = \mathrm{RSS}/n</math>, де <math>\mathrm{RSS}</math> є {{нп|Залишкова сума квадратів|залишковою сумою квадратів||Residual sum of squares}} ({{lang-en|Residual Sum of Squares}}): <math>\textstyle \mathrm{RSS} = \sum_{i=1}^n (y_i-f(x_i;\hat{\theta}))^2</math>. Тоді максимальним значенням функції логарифмічної правдоподібності моделі є
==== Випадок однакових дисперсій ====


: <math>
Особливо зручний вираз для ІКА може бути отримано в випадку, коли всі ''&sigma;''<sub>''i''</sub> вважаються однаковими (тобто, ''&sigma;''<sub>''i''</sub>&nbsp;= ''&sigma;''), та ''&sigma;'' є невідомою. В такому випадку [[Метод максимальної правдоподібності|оцінкою максимальної правдоподібності]] для ''&sigma;''<sup>2</sup> є RSS/''n'', де RSS є {{нп|Залишкова сума квадратів|залишковою сумою квадратів||Residual sum of squares}} ({{lang-en|Residual Sum of Squares}}): <math>\textstyle \mathrm{RSS} = \sum_{i=1}^n (y_i-f(x_i;\hat{\theta}))^2</math>. Це дає <span style="font-family:serif; font-size:105%">AIC&nbsp;= 2''k''&nbsp;+ ''n''&#8239;ln(RSS/''n'')&nbsp;+ ''C''<sub>1</sub>&nbsp;= 2''k''&nbsp;+ ''n''&#8239;ln(RSS)&nbsp;+ ''C''<sub>2</sub></span>.{{sfn|Burnham|Anderson|2002|p=63}} Як і вище, для порівняння моделей сталу можна ігнорувати.
-\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln(\hat\sigma^2) - \frac{1}{2\hat\sigma^2}\mathrm{RSS}
\, = \, - \frac{n}{2}\ln(\mathrm{RSS}/n) + C
</math>


де {{math|''C''}} є сталою, що не залежить від моделі, а залежить лише від конкретних точок даних, тобто, вона не змінюється, якщо не змінюються дані.
=== Порівняння з перехресною перевіркою ===


Це дає AIC&nbsp;= {{math|2''k'' + ''n''{{resize|33%|&thinsp;}}ln(RSS/''n'') &minus; 2''C'' {{=}} 2''k'' + ''n''{{resize|33%|&thinsp;}}ln(RSS) &minus; (''n''{{resize|33%|&thinsp;}}ln(''n'') + 2''C'')}}.{{sfn|Бернем|Андерсон|2002|p=63}} Оскільки в ІКА мають значення лише різниці, сталою {{math|(''n''{{resize|33%|&thinsp;}}ln(''n'') + 2''C'')}} можливо нехтувати, що дозволяє нам зручно брати для порівнювання моделей AIC&nbsp;= {{math|2''k'' + ''n''{{resize|33%|&thinsp;}}ln(RSS)}}. Зауважте, що якщо всі ці моделі мають однакове {{math|''k''}}, то обирання моделі з мінімальним ІКА є рівнозначним обиранню моделі з мінімальною {{math|RSS}}, що є звичайною метою обирання моделі на основі найменших квадратів.
[[Перехресна перевірка]] є асимптотично еквівалентною ІКА для звичайних лінійних регресійних моделей.{{sfn|Stone|1977}} Така асимптотична еквівалентність також має місце й для [[Змішана модель|моделей зі змішаними рівнями факторів]].{{sfn|Fang|2011}}


=== Порівняння з ''C<sub>p</sub>'' Меллоуза ===
=== Порівняння з ''C<sub>p</sub>'' Меллоуза ===
Рядок 132: Рядок 186:
* {{нп|Фокусний інформаційний критерій|||Focused information criterion}}
* {{нп|Фокусний інформаційний критерій|||Focused information criterion}}
* {{нп|Інформаційний критерій Геннена — Куїнна|Інформаційний критерій Геннена&nbsp;— Куїнна||Hannan–Quinn information criterion}}
* {{нп|Інформаційний критерій Геннена — Куїнна|Інформаційний критерій Геннена&nbsp;— Куїнна||Hannan–Quinn information criterion}}
* [[Метод максимальної правдоподібності]]
* [[Бритва Оккама]]
* {{нп|Принцип максимальної ентропії|||Principle of maximum entropy}}
* {{нп|Принцип максимальної ентропії|||Principle of maximum entropy}}


== Примітки ==
== Примітки ==
{{reflist|2}}
{{reflist|24em}}


== Джерела ==
== Джерела ==
{{refbegin}}
{{refbegin}}
* {{Citation | first1= K. | last1= Aho | first2= D. | last2= Derryberry | first3= T. | last3= Peterson | title= Model selection for ecologists: the worldviews of AIC and BIC | journal= [[Ecology (журнал)|Ecology]] | volume= 95 | pages= 631–636 | year= 2014 | doi= 10.1890/13-1452.1 | ref=harv}} {{ref-en}}
* {{Citation | first1= K. | last1= Aho | first2= D. | last2= Derryberry | first3= T. | last3= Peterson | title= Model selection for ecologists: the worldviews of AIC and BIC | journal= [[Ecology (журнал)|Ecology]] | volume= 95 | issue= 3 | pages= 631–636 | year= 2014 | doi= 10.1890/13-1452.1 | ref= {{harvid|Ахо|Дерріберрі|Петерсон|2014}} }} {{ref-en}}
* {{Citation | first=H. |last=Akaike |authorlink=Хіроцуґу Акаіке |year=1973 | contribution= Information theory and an extension of the maximum likelihood principle | title= 2nd International Symposium on Information Theory, Tsahkadsor, Armenia, USSR, September 2-8, 1971 | editor1-first=B.N. | editor1-last= Petrov | editor2-first= F. | editor2-last= Csáki | page=267-281 | publisher = Akadémiai Kiadó | place= Budapest | ref=harv}} {{ref-en}}
* {{Citation | first=H. |last=Akaike |authorlink=Хіроцуґу Акаіке |year=1973 | contribution= Information theory and an extension of the maximum likelihood principle | title= 2nd International Symposium on Information Theory, Tsahkadsor, Armenia, USSR, September 2-8, 1971 | editor1-first=B. N. | editor1-last= Petrov | editor2-first= F. | editor2-last= Csáki | pages=267–281 | publisher = {{нп|Akadémiai Kiadó}} | place= Budapest | ref= {{harvid|Акаіке|1973}} }} Переопубліковано в {{citation| editor1-first= S. | editor1-last= Kotz | editor1-link= Самуїл Борисович Коц| editor2-first= N. L. | editor2-last= Johnson | editor2-link= Норман Ллойд Джонсон | title= Breakthroughs in Statistics | volume= I | pages= 610–624| year=1992 | publisher= [[Springer-Verlag]]}} {{ref-en}}
* {{Citation |first=H. |last=Akaike |authorlink=Хіроцуґу Акаіке |year=1974 |title=A new look at the statistical model identification |journal=IEEE Transactions on Automatic Control |volume=19 |issue=6 |pages=716–723 | url=http://www.unt.edu/rss/class/Jon/MiscDocs/Akaike_1974.pdf |doi=10.1109/TAC.1974.1100705 |mr=0423716 |ref=harv }} {{ref-en}}
* {{Citation |first=H. |last=Akaike |authorlink=Хіроцуґу Акаіке |year=1974 |title=A new look at the statistical model identification |journal={{нп|IEEE Transactions on Automatic Control}} |volume=19 |issue=6 |pages=716–723 | url= |doi=10.1109/TAC.1974.1100705 |mr=0423716 |ref={{harvid|Акаіке|1974}} }} {{ref-en}}
* {{Citation | first=H. |last=Akaike |authorlink=Хіроцуґу Акаіке | contribution = Prediction and entropy | page=1-24 | title= A Celebration of Statistics | editor1-first= A.C. | editor1-last= Atkinson | editor2-first= S.E. | editor2-last= Fienberg | year = 1985 | publisher= Springer | ref=harv}} {{ref-en}}
* {{Citation | first=H. |last=Akaike |authorlink=Хіроцуґу Акаіке | contribution = Prediction and entropy | pages=1–24 | title= A Celebration of Statistics | editor1-first= A. C. | editor1-last= Atkinson | editor2-first= S. E. | editor2-last= Fienberg | editor2-link= Стівен Фейнберг | year = 1985 | publisher= Springer | ref= {{harvid|Акаіке|1985}} }} {{ref-en}}
* {{Citation |editor1-last= Bandyopadhyay |editor1-first= P. S. |editor-first2= M. R. |editor-last2= Forster | title = Philosophy of Statistics | publisher= [[North-Holland Publishing]] | year = 2011 | ref= {{harvid|Бандьопадхяя|Форстер|2011}} }} {{ref-en}}
* {{Citation | first1=A. | last1= Boisbunon | first2=S. | last2= Canu | first3=D. | last3= Fourdrinier | first4=W. |last4= Strawderman | first5=M. T. | last5= Wells | title= Akaike's Information Criterion, ''C<sub>p</sub>'' and estimators of loss for elliptically symmetric distributions | journal= [[International Statistical Review]]| year=2014 | volume=82 | pages= 422–439| doi= 10.1111/insr.12052 | ref=harv}} {{ref-en}}
* {{Citation | first1=A. | last1= Boisbunon | first2=S. | last2= Canu | first3=D. | last3= Fourdrinier | first4=W. |last4= Strawderman | first5=M. T. | last5= Wells | title= Akaike's Information Criterion, ''C<sub>p</sub>'' and estimators of loss for elliptically symmetric distributions | journal= [[International Statistical Review]]| year=2014 | volume=82 | pages= 422–439| doi= 10.1111/insr.12052 | ref=harv}} {{ref-en}}
* {{Citation |last=Brockwell |first=P. J. |last2=Davis |first2=R. A. |year=1987 |title=Time Series: Theory and Methods |edition= |publisher=Springer |isbn=0387964061 | ref=harv}} {{ref-en}}
* {{Citation |last=Burnham |first=K. P. |last2=Anderson |first2=D. R. |year=2002 |title=Model Selection and Multimodel Inference: A practical information-theoretic approach |edition=2nd |publisher=[[Springer-Verlag]] |url=https://archive.org/details/modelselectionmu0000burn |ref={{harvid|Бернем|Андерсон|2002}} |url-access=registration }} {{ref-en}}
* {{Citation |last=Brockwell |first=P. J. |last2=Davis |first2=R. A. |year=1991 |title=Time Series: Theory and Methods |edition=2nd |publisher=Springer |isbn=0387974296 | ref=harv}} Republished in 2009: ISBN 1441903194. {{ref-en}}
* {{Citation|last=Burnham |first=K. P. |last2=Anderson |first2=D. R. |year=2004 |url=http://www.sortie-nd.org/lme/Statistical%20Papers/Burnham_and_Anderson_2004_Multimodel_Inference.pdf |title=Multimodel inference: understanding AIC and BIC in Model Selection |journal={{нп|Sociological Methods & Research}} |issn= |volume=33 |issue= |pages=261–304 |doi=10.1177/0049124104268644 |ref={{harvid|Бернем|Андерсон|2004}} }} {{ref-en}}
* {{Citation |last=Cavanaugh |first=J. E. |year=1997 |title=Unifying the derivations of the Akaike and corrected Akaike information criteria |journal=Statistics & Probability Letters |volume=31 |issue= 2|pages=201–208 |doi=10.1016/s0167-7152(96)00128-9 |url=http://myweb.uiowa.edu/cavaaugh/aicaicc.pdf |ref=harv |accessdate=21 жовтень 2015 |archiveurl=https://web.archive.org/web/20160327131857/http://myweb.uiowa.edu/cavaaugh/aicaicc.pdf |archivedate=27 березень 2016 |deadurl=yes |ref={{harvid|Кавано|1997}} }} {{ref-en}}
* {{Citation |last=Burnham |first=K. P. |last2=Anderson |first2=D. R. |year=2002 |title=Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach |edition=2nd |publisher=Springer-Verlag |isbn=0-387-95364-7 |url=https://archive.org/details/modelselectionmu0000burn |ref=harv |url-access=registration }} {{ref-en}}
* {{Citation |last=Claeskens |first=G.|author1-link= Ґерда Клаескенс |first2=N. L. |last2=Hjort| authorlink2= Нільс Лід Йорт |year=2008 |title=Model Selection and Model Averaging |publisher=[[Cambridge University Press]] |ref={{harvid|Клаескенс|Йорт|2008}} }} {{ref-en}} [''Зауваження:'' Визначення ІКА Клаескенс та Йорта має протилежний знак до стандартного визначення, первинно даного Акаіке, та дотримуваного іншими авторами.]
* {{Citation |last=Burnham |first=K. P. |last2=Anderson |first2=D. R. |year=2004 |url=http://www.sortie-nd.org/lme/Statistical%20Papers/Burnham_and_Anderson_2004_Multimodel_Inference.pdf |title=Multimodel inference: understanding AIC and BIC in Model Selection |journal={{нп|Sociological Methods & Research}} |issn= |publisher= |volume=33 |issue= |pages=261–304 |doi= 10.1177/0049124104268644 |ref=harv}} {{ref-en}}
* {{Citation | first=J. | last= deLeeuw | authorlink= Ян де Лев | year= 1992 | contribution= Introduction to Akaike (1973) information theory and an extension of the maximum likelihood principle | contribution-url= http://gifi.stat.ucla.edu/janspubs/1990/chapters/deleeuw_C_90c.pdf | title= Breakthroughs in Statistics I | editor1-first=S. | editor1-last= Kotz | editor2-first= N. L. | editor2-last= Johnson | editor1-link= Семюел Коц | editor2-link= Норман Ллойд Джонсон | pages= 599–609 | publisher= Springer | ref= {{harvid|де Лев|1992}} }} {{ref-en}}
* {{Citation |last=Cavanaugh |first=J. E. |year=1997 |title=Unifying the derivations of the Akaike and corrected Akaike information criteria |journal=Statistics & Probability Letters |volume=31 |issue= |pages=201–208 |doi=10.1016/s0167-7152(96)00128-9 |url=http://myweb.uiowa.edu/cavaaugh/aicaicc.pdf |ref=harv |accessdate=21 жовтень 2015 |archiveurl=https://web.archive.org/web/20160327131857/http://myweb.uiowa.edu/cavaaugh/aicaicc.pdf |archivedate=27 березень 2016 |deadurl=yes }} {{ref-en}}
* {{Citation |last=Claeskens |first=G. |first2=N. L. |last2=Hjort |year=2008 |title=Model Selection and Model Averaging |publisher=[[Cambridge University Press]] |isbn= | authorlink2= Нільс Лід Йорт |ref=harv}} {{ref-en}}
* {{Citation |last=Fang |first=Yixin |year=2011 |url=http://www.jds-online.com/file_download/278/JDS-652a.pdf |title=Asymptotic equivalence between cross-validations and Akaike Information Criteria in mixed-effects models |journal=Journal of Data Science |volume=9 |pages=15–21 |ref= {{harvid|Фан|2011}} }} {{ref-en}}
* {{Citation | author1-first = D. F. | author1-last = Findley | author2-first=E. | author2-last=Parzen | author2-link= Емануель Парцен | year= 1995 | title = A conversation with Hirotugu Akaike | journal = {{нп|Statistical Science}} | volume = 10 | pages = 104–117 | doi = 10.1214/ss/1177010133 | ref = {{harvid|Фіндлі|Парцен|1995}} }} {{ref-en}}
* {{Citation | first=J. | last= deLeeuw | authorlink= Ян де Лев | year= 1992 | contribution= Introduction to Akaike (1973) information theory and an extension of the maximum likelihood principle | contribution-url= http://gifi.stat.ucla.edu/janspubs/1990/chapters/deleeuw_C_90c.pdf | title= Breakthroughs in Statistics I | editor1-first=S. | editor1-last= Kotz | editor2-first= N.L. | editor2-last= Johnson | editor1-link= Семюел Коц | editor2-link= Норман Ллойд Джонсон | page= 599-609 | publisher= Springer | ref=harv}} {{ref-en}}
* {{Citation| last=Giraud | first=C. | title=Introduction to High-Dimensional Statistics | year=2015 | publisher= [[CRC Press]] | ref={{harvid|Жиро|2015}} }} {{ref-en}}
* {{Citation |last=Fang |first=Yixin |year=2011 |url=http://www.jds-online.com/file_download/278/JDS-652a.pdf |title=Asymptotic equivalence between cross-validations and Akaike Information Criteria in mixed-effects models |journal=Journal of Data Science |volume=9 |pages=15-21 |ref=harv}} {{ref-en}}
* {{Citation| last=Giraud | first=C. | title=Introduction to High-Dimensional Statistics | year=2015 | publisher= [[CRC Press]] | ref=harv}} {{ref-en}}
* {{Citation |last=Hurvich |first=C. M. |last2=Tsai |first2=C.-L. |year=1989 |title=Regression and time series model selection in small samples |journal={{нп|Biometrika}} |issn= |volume=76 |issue= 2|pages=297–307 |doi= 10.1093/biomet/76.2.297 | ref= {{harvid|Гурвич|Цай|1989}} }} {{ref-en}}
* {{Citation |last=Hurvich |first=C. M. |last2=Tsai |first2=C.-L. |year=1989 |title=Regression and time series model selection in small samples |journal={{нп|Biometrika}} |issn= |volume=76 |issue= |pages=297–307 |doi= 10.1093/biomet/76.2.297 | ref=harv}} {{ref-en}}
* {{Citation | last1=Konishi | first1=S. | last2= Kitagawa | first2=G. | year=2008 | title=Information Criteria and Statistical Modeling | publisher=Springer | ref={{harvid|Конісі|Кітаґава|2008}} }} {{ref-en}}
* {{Citation | last1=Konishi | first1=S. | last2= Kitagawa | first2=G. | year=2008 | title=Information Criteria and Statistical Modeling | publisher=Springer | ref=harv}} {{ref-en}}
* {{Citation |last=McQuarrie |first=A. D. R. |last2=Tsai |first2=C.-L. |year=1998 |title=Regression and Time Series Model Selection |publisher=[[World Scientific]] | ref={{harvid|МакКуоррі|Цай|1998}} }} {{ref-en}}
* {{Citation |last=McQuarrie |first=A. D. R. |last2=Tsai |first2=C.-L. |year=1998 |title=Regression and Time Series Model Selection |publisher=[[World Scientific]] |isbn=981-02-3242-X | ref=harv}} {{ref-en}}
* {{Citation | last= Murtaugh | first= P. A. | title= In defense of ''P'' values | journal= [[Ecology (журнал)|Ecology]] | year= 2014 | volume= 95 | issue= 3 | pages= 611–617 | doi= 10.1890/13-0590.1| url= https://zenodo.org/record/894459 | ref = {{harvid|Мерта|2014}} }} {{ref-en}}
* {{Citation |last=Stone |first=M. |date=1977 |title=An Asymptotic Equivalence of Choice of Model by Cross-Validation and Akaike's Criterion |url=http://www.jstor.org/stable/2984877 |journal={{нп|Journal of the Royal Statistical Society}}: Series B (Methodological) |volume=39 |issue=1 |pages=44-47 |accessdate=18 October 2014 | ref=harv}} {{ref-en}}
* {{Citation | author1-first= Y. | author1-last= Sakamoto | author2-first= M. | author2-last= Ishiguro | author3-first= G. | author3-last= Kitagawa | title= Akaike Information Criterion Statistics | year= 1986 | publisher= {{нп|D. Reidel}} | ref = {{harvid|Сакамото|Ісіґуро|Кітаґава||1986}} }} {{ref-en}}
* {{Citation |last=Sugiura |first=N. |year=1978 |title=Further analysis of the data by Akaike’s information criterion and the finite corrections |journal={{нп|Communications in Statistics}} - Theory and Methods |volume=A7 |issue= |pages=13–26 |doi= | ref=harv}} {{ref-en}}
* {{Citation |last=Stone |first=M. |date=1977 |title=An asymptotic equivalence of choice of model by cross-validation and Akaike's criterion |jstor=2984877 |journal={{нп|Journal of the Royal Statistical Society, Series B}} |volume=39 |issue=1 |pages=44–47 | ref= {{harvid|Стоун|1977}} }} {{ref-en}}
* {{Citation |last=Takeuchi |first=K. |year=1976 |language=Japanese | title=&nbsp; |trans_title=Distribution of informational statistics and a criterion of model fitting |journal=Suri-Kagaku [Mathematical Sciences] |volume=153 |issue= |pages=12–18 |doi= | ref=harv}} {{ref-ja}}
* {{Citation |last=Sugiura |first=N. |year=1978 |title=Further analysis of the data by Akaike's information criterion and the finite corrections |journal={{нп|Communications in Statistics|Communications in Statistics - Theory and Methods}} |volume=7 |issue= |pages=13–26 |doi= 10.1080/03610927808827599 |ref= {{harvid|Суґіура|1978}} }} {{ref-en}}
* {{Citation |last=Takeuchi |first=K. |year=1976 |language=Japanese | title=&nbsp; |trans-title=Distribution of informational statistics and a criterion of model fitting |journal=Suri Kagaku | trans-journal= Mathematical Sciences |issn= 0386-2240 |volume=153 |pages=12–18 | ref= {{harvid|Такеуті|1976}} }} {{ref-ja}}
* {{Citation | last= Vrieze | first= S. I. | title= Model selection and psychological theory: a discussion of the differences between the Akaike Information Criterion (AIC) and the Bayesian Information Criterion (BIC) | journal= {{нп|Psychological Methods}} | volume= 17 | page= 228–243 | year= 2012 | doi= 10.1037/a0027127 | url= http://hbanaszak.mjr.uw.edu.pl/TempTxt/Vrieze_2012_Model%20selection%20and%20psychological%20theory%20A%20discussion%20of%20the%20differences%20between%20the%20Akaike%20information%20criterion%20%28AIC%29%20and%20the%20Bayesian%20information%20criterion%20%28BIC%29.pdf | ref= harv | accessdate= 21 жовтень 2015 | archiveurl= https://web.archive.org/web/20160108163241/http://hbanaszak.mjr.uw.edu.pl/TempTxt/Vrieze_2012_Model%20selection%20and%20psychological%20theory%20A%20discussion%20of%20the%20differences%20between%20the%20Akaike%20information%20criterion%20(AIC)%20and%20the%20Bayesian%20information%20criterion%20(BIC).pdf | archivedate= 8 січень 2016 | deadurl= yes }} {{ref-en}}
* {{Citation |last=Yang |first=Y. |year=2005 |title=Can the strengths of AIC and BIC be shared? |journal={{нп|Biometrika}} |issn= |volume=92 |issue= |pages=937–950 |doi= 10.1093/biomet/92.4.937 | ref=harv}} {{ref-en}}
* {{Citation | last= Vrieze | first= S. I. | title= Model selection and psychological theory: a discussion of the differences between the Akaike Information Criterion (AIC) and the Bayesian Information Criterion (BIC) | journal= {{нп|Psychological Methods}} | volume= 17 | issue= 2 | pages= 228–243 | year= 2012 | doi= 10.1037/a0027127 | pmc=3366160 | pmid=22309957 | ref= {{harvid|Врізе|2012}} }} {{ref-en}}
* {{Citation |last=Yang |first=Y. |year=2005 |title=Can the strengths of AIC and BIC be shared? |journal={{нп|Biometrika}} |issn= |volume=92 |issue= |pages=937–950 |doi= 10.1093/biomet/92.4.937 | ref= {{harvid|Янг|2005}} }} {{ref-en}}
{{refend}}
{{refend}}


== Література ==
== Література ==
* {{Citation | first=H. | last= Akaike | url= http://www.garfield.library.upenn.edu/classics1981/A1981MS54100001.pdf | title= This Week's Citation Classic | journal= {{нп|Current Contents|Current Contents Engineering, Technology, and Applied Sciences}}| volume= 12 | issue= 51 | page= 42 | date= 21 December 1981 |ref=none }} {{ref-en}} [Хіроцуґу Акаіке коментує, як він дійшов до ІКА]
* {{Citation |last=Anderson |first=D. R. |year=2008 |title=Model Based Inference in the Life Sciences |publisher=Springer |isbn= }} {{ref-en}}
* {{Citation |last1=Liu |first1=W. |last2=Yang | first2=Y. |year=2011 |title=Parametric or nonparametric? |journal={{нп|Annals of Statistics}} |volume=39 |issue= |pages=2074–2102 |doi= 10.1214/11-AOS899}} {{ref-en}}
* {{Citation |last=Anderson |first=D. R. |year=2008 |title=Model Based Inference in the Life Sciences |publisher=Springer |isbn= |ref=none}} {{ref-en}}
* {{Citation | last= Pan | first= W. | title= Akaike's information criterion in generalized estimating equations | journal= {{нп|Biometrics|||Biometrics (journal)}} | year= 2001 | volume= 57 | pages= 120-125 | doi= 10.1111/j.0006-341X.2001.00120.x}} {{ref-en}}
* {{Citation| first= T. W. | last= Arnold | title= Uninformative parameters and model selection using Akaike's Information Criterion |journal= {{нп|Journal of Wildlife Management}} | volume= 74 | issue= 6 | page= 1175–1178 | year= 2010 | doi= 10.1111/j.1937-2817.2010.tb01236.x |ref=none }} {{ref-en}}
* {{Citation|first1=K. P. |last1=Burnham |first2=D. R. |last2=Anderson |first3=K. P. |last3=Huyvaert |title=AIC model selection and multimodel inference in behavioral ecology |journal=[[Behavioral Ecology and Sociobiology]] |year=2011 |volume=65 |pages=23–35 |doi=10.1007/s00265-010-1029-6 |url= https://wolfweb.unr.edu/~ldyer/classes/396/burnham2011.pdf |ref=none }} {{ref-en}}
* {{Citation | editor1-first = E. | editor1-last = Parzen | editor2-first = K. | editor2-last = Tanabe | editor3-first = G. | editor3-last = Kitagawa | title = Selected Papers of Hirotugu Akaike | year = 1998 | publisher = Springer | doi= 10.1007/978-1-4612-1694-0}} {{ref-en}}
* {{citation| first1= J. E. | last1= Cavanaugh | first2= A. A. | last2= Neath | title= The Akaike information criterion | journal= {{нп|WIREs Computational Statistics}} | year= 2019 | volume= 11 | issue= 3 | page= e1460 | doi= 10.1002/wics.1460 | ref= none }} {{ref-en}}
* {{Citation | first1= C.-K. | last1= Ing | first2= C.-Z. | last2= Wei | title= Order selection for same-realization predictions in autoregressive processes | journal= {{нп|Annals of Statistics}} | year = 2005 | volume= 33 | issue= 5 | pages= 2423–2474 | doi= 10.1214/009053605000000525 | ref=none }} {{ref-en}}
* {{Citation | first1= V. | last1= Ko | first2= N. L. | last2= Hjort | author2-link= Нільс Лід Йорт | title= Copula information crite rion for model selection with two-stage maximum likelihood estimation | journal= Econometrics and Statistics | year= 2019 | volume= 12 | page= 167–180 | doi= 10.1016/j.ecosta.2019.01.001 | ref=none}} {{ref-en}}
* {{Citation | first= S. | last= Larski | title= The Problem of Model Selection and Scientific Realism | type= Thesis | year= 2012 | publisher= [[London School of Economics]] | url= http://etheses.lse.ac.uk/615/1/StanislavLarski_Problem_Model_Selection.pdf | ref=none }} {{ref-en}}
* {{Citation | last= Pan | first= W. | title= Akaike's Information Criterion in generalized estimating equations | journal= {{нп|Biometrics|||Biometrics (journal)}} | year= 2001 | volume= 57 | pages= 120–125 | url= https://pdfs.semanticscholar.org/d1e7/7111d45d4299e91c5b3beb9318a381d4d27c.pdf | doi= 10.1111/j.0006-341X.2001.00120.x |ref=none}} {{ref-en}}
* {{Citation | editor1-first = E. | editor1-last = Parzen | editor2-first = K. | editor2-last = Tanabe | editor3-first = G. | editor3-last = Kitagawa | editor1-link= Емануель Парцен | title = Selected Papers of Hirotugu Akaike | year = 1998 | publisher = Springer | doi= 10.1007/978-1-4612-1694-0 |ref=none}} {{ref-en}}
* {{Citation | last1= Saefken | first1= B. | last2= Kneib | first2= T. | last3= van Waveren | first3= C.-S. | last4= Greven | first4= S. | year= 2014 | title= A unifying approach to the estimation of the conditional Akaike information in generalized linear mixed models | journal= {{нп|Electronic Journal of Statistics}} | volume= 8 | pages= 201–225 | doi= 10.1214/14-EJS881}} {{ref-en}}
* {{Citation | last1= Saefken | first1= B. | last2= Kneib | first2= T. | last3= van Waveren | first3= C.-S. | last4= Greven | first4= S. | year= 2014 | title= A unifying approach to the estimation of the conditional Akaike information in generalized linear mixed models | journal= {{нп|Electronic Journal of Statistics}} | volume= 8 | pages= 201–225 | doi= 10.1214/14-EJS881}} {{ref-en}}


{{Статистика|висновування}}
== Посилання ==
* [http://www.garfield.library.upenn.edu/classics1981/A1981MS54100001.pdf Коментарі Хіроцуґу Акаіке про те, як він дійшов до ІКА], в ''This Week's Citation Classic'' (21 грудня 1981&nbsp;р.) {{ref-en}}
* [https://noppa.tkk.fi/noppa/kurssi/s-114.1310/luennot/extramaterial.pdf AIC]{{Недоступне посилання|date=червень 2019 |bot=InternetArchiveBot }} ({{нп|Університет Аалто|||Aalto University}}) {{ref-en}}
* [https://web.archive.org/web/20160304085952/http://www4.ncsu.edu/~shu3/Presentation/AIC.pdf Akaike Information Criterion] ([[Університет штату Північна Кароліна]]) {{ref-en}}
* [https://web.archive.org/web/20161222051916/http://www-nrd.nhtsa.dot.gov/Pdf/ESV/esv20/07-0476-W.pdf Example AIC use] (Honda USA, Noesis Solutions, Belgium) {{ref-en}}
* [https://web.archive.org/web/20110720084848/http://myweb.uiowa.edu/cavaaugh/ms_seminar.html Model Selection] ([[Університет Айови]]) {{ref-en}}


{{DEFAULTSORT:Інформаційний критерій Акаіке}}
{{DEFAULTSORT:Інформаційний критерій Акаіке}}
[[Категорія:Ентропія й інформація]]
[[Категорія:Обирання моделі]]
[[Категорія:Обирання моделі]]
[[Категорія:Обирання змінної регресії]]
[[Категорія:Обирання змінної регресії]]

Версія за 16:08, 30 грудня 2019

Інформаційний критерій Акаіке (ІКА, англ. Akaike information criterion, AIC) — це оцінювач похибки позавибіркового передбачування, і відтак відносної якості статистичних моделей, для заданого набору даних.[1][2] Маючи сукупність моделей для цих даних, ІКА оцінює якість кожної з моделей відносно кожної з інших моделей. Таким чином, ІКА пропонує засоби для обирання моделі.

ІКА ґурнується на теорії інформації. Коли статистичну модель використовують для представлення процесу, що породив дані, це представлення майже ніколи не буде точним, тож деяка інформація при застосуванні цієї моделі для представлення цього процесу втрачатиметься. ІКА оцінює відносну кількість інформації, що втрачає задана модель: що менше інформації втрачає модель, то вищою є її якість.

В оцінюванні кількості інформації, що втрачає модель, ІКА має справу з компромісом між пристосованістю моделі та її простотою. Іншими словами, ІКА працює як із ризиком перенавчання, так і з ризиком недонавчання.

Інформаційний критерій Акаіке названо на честь статистика Хіроцуґу Акаіке[en], який його сформулював. Він тепер формує основу однієї з парадигм засад статистики[en], а також знаходить широкого вжитку в статистичному висновуванні.

Означення

Припустімо, що ми маємо статистичну модель якихось даних. Нехай k буде числом оцінюваних параметрів у цій моделі. Нехай буде максимальним значенням функції правдоподібності для цієї моделі. Тоді значенням ІКА цієї моделі є наступне.[3][4]

Для заданого набору моделей-кандидатів даних найкращою моделлю є та, що має мінімальне значення ІКА. Таким чином, ІКА винагороджує пристосованість (за оцінкою функції правдоподібності), але також включає штраф, що є висхідною функцією числа оцінюваних параметрів. Цей штраф перешкоджає перенавчанню, оскільки збільшення числа параметрів у моделі майже завжди покращує її пристосованість.

ІКА засновано на теорії інформації. Припустімо, що дані породжуються якимось невідомим процесом f. Ми розглядаємо дві моделі-кандидати для представлення f: g1 та g2. Якби ми знали f, то могли би знайти втрату інформації від застосування g1 для представлення f шляхом обчислення розходження Кульбака — Лейблера, DKL(f  ‖  g1); аналогічно, втрату інформації від застосування g2 для представлення f може бути знайдено обчисленням DKL(f  ‖  g2). Тоді би ми, загалом, обрали модель-кандидата, що мінімізує втрату інформації.

Ми не можемо обирати з упевненістю, оскільки не знаємо f. Проте Акаіке, 1974 показав, що за допомогою ІКА ми можемо оцінити, наскільки більше (або менше) інформації втрачається моделлю g1, аніж моделлю g2. Ця оцінка, проте, є вірною лише асимптотично[en]: якщо кількість точок даних є малою, то часто є необхідним додаткове коригування (див. § ІКАк нижче).

Зауважте, що ІКА не каже нічого про абсолютну якість моделі, лише про якість відносно інших моделей. Таким чином, якщо всі моделі-кандидати пристосовуються погано, ІКА не видасть жодного попередження про це. Отже, після обрання моделі за допомогою ІКА, зазвичай доброю практикою є підтвердити абсолютну якість моделі. Таке підтвердження зазвичай включає перевірку залишків моделі (щоби визначити, чи виглядають залишки випадковими), та перевірки передбачувань моделі. Докладніше з цієї теми див затверджування статистичної моделі.

Як використовувати ІКА на практиці

Для застосування ІКА на практиці ми починаємо з набору моделей-кандидатів, а потім знаходимо відповідні значення ІКА цих моделей. Через застосування моделі-кандидата для представлення «справжньої моделі», тобто процесу, що породив дані, втрата інформації буде майже завжди. Серед моделей-кандидатів ми хочемо обрати таку, що мінімізує цю втрату інформації. Ми не можемо обирати з упевненістю, але ми можемо мінімізувати оцінювану втрату інформації.

Припустімо, що є R моделей-кандидатів. Позначмо значення ІКА (англ. AIC) для цих моделей через AIC1, AIC2, AIC3, ..., AICR. Нехай AICmin буде мінімальним із цих значень. Тоді величину exp((AICmin − AICi)/2) можливо інтерпретувати як пропорційну до ймовірності того, що i-та модель мінімізує (оцінювану) втрату інформації.[5]

Як приклад, припустімо, що є три моделі-кандидати, значеннями ІКА яких є 100, 102 та 110. Тоді друга модель є в exp((100 − 102)/2) = 0.368 разів імовірнішою за першу модель для мінімізації втрати інформації. Аналогічно, третя модель є в exp((100 − 110)/2) = 0.007 разів імовірнішою за першу для мінімізації втрати інформації.

В цьому прикладі ми опустимо третю модель із подальшого розгляду. Тоді ми матимемо три варіанти: (1) зібрати більше даних у надії, що це дозволить здійснити чітке розрізнення між першими двома моделями; (2) просто зробити висновок, що дані є недостатніми для підтримки обрання моделі з-поміж цих двох; (3) взяти зважене середнє перших двох моделей з ваговими коефіцієнтами, пропорційними 1 та 0.368 відповідно, і потім здійснювати статистичне висновування на основі зваженої мультимоделі.[6]

Величина exp((AICmin − AICi)/2) є відомою як відносна правдоподібність моделі i. Вона є тісно пов'язаною з відношенням правдоподібностей, що використовують у перевірці відношенням правдоподібностей. Дійсно, якщо всі моделі в наборі кандидатів мають однакове число параметрів, то застосування ІКА може спершу здаватися дуже схожим на застосування перевірки відношенням правдоподібностей. Проте є істотні відмінності. Зокрема, перевірка відношенням правдоподібностей є чинною лише для вкладених моделей, тоді як ІКА (та ІКАк) не мають такого обмеження.[7][8]

Перевірка гіпотез

Кожну перевірку статистичних гіпотез може бути сформульовано як порівняння статистичних моделей. Отже, кожну перевірку статистичних гіпотез може бути відтворено через ІКА. У підрозділах нижче коротко описано два приклади. Деталі для цих прикладів, та набагато більше прикладів, наведено в Сакамото та ін., 1986, Частина II та Конісі та Кітаґава, 2008, гл. 4.

Відтворення t-критерію Стьюдента

Як приклад перевірки гіпотез, розгляньмо t-критерій для порівнювання середніх значень двох нормально розподілених сукупностей. Вхід до t-критерію складається з випадкової вибірки з кожної з цих двох сукупностей.

Щоби сформулювати цей критерій як порівняння моделей, ми будуємо дві різні моделі. Перша модель моделює ці дві сукупності як такі, що мають потенційно різні середні значення та стандартні відхилення. Фунція правдоподібності для першої моделі відтак є добутком правдоподібностей для двох різних нормальних розподілів, тож вона має чотири параметри: μ1, σ1, μ2, σ2. Щоби бути точними, ця функція правдоподібності є наступною (із позначенням розмірів виборок через n1 and n2).

Друга модель моделює ці дві сукупності як такі, що мають однакові середні, але потенційно різні стандартні відхилення. Функція правдоподібності для другої моделі відтак встановлює в наведеному вище рівнянні μ1 = μ2, тож вона має три параметри.

Потім ми максимізуємо ці функції правдоподібності для цих двох моделей (на практиці ми максимізуємо функції логарифмічної правдоподібності), після чого стає просто обчислити значення ІКА цих моделей. Далі ми обчислюємо відносну правдоподібність. Наприклад, якщо друга модель виявиться лише в 0.01 разів правдоподібнішою за першу, то ми виключимо другу модель із подальшого розгляду: тож ми зробимо висновок, що ті дві сукупності мають різні середні.

t-критерій виходить із того, що дві сукупності мають ідентичні стандартні відхилення. Цей критерій схильний бути ненадійним, якщо це припущення є хибним, а також якщо розміри двох виборок є дуже різними (t-критерій Велша[en] був би кращим). Порівнювання середніх значень через ІКА, як у прикладі вище, має перевагу, бо не спирається на це припущення.

Порівнювання наборів категорійних даних

Як інший приклад перевірки гіпотез, припустімо, що ми маємо дві сукупності, й кожен із членів кожної сукупності перебуває в одній з двох категоій: категорії №1, або категорії №2. Кожна з сукупностей є розподіленою біноміально. Ми хочемо знати, чи є розподіли цих двох сукупностей однаковими. Нам дали випадкову вибірку з кожної з двох сукупностей.

Нехай m буде розміром вибірки з першої сукупності. Нехай m1 буде числом спостережень (у цій вибірці) в категорії №1, тож числом спостережень у категорії №2 буде mm1. Аналогічно, нехай n буде розміром вибірки з другої сукупності. Нехай n1 буде числом спостережень (у цій вибірці) в категорії №1.

Нехай p буде ймовірністю того, що випадково обраний член першої сукупності перебуває в категорії №1. Отже, ймовірністю того, що випадково обраний член першої сукупності перебуває в категоії №2, буде 1 − p. Зауважте, що розподіл першої сукупності має один параметр. Нехай q буде ймовірністю того, що випадково обраний член другої сукупності перебуває в категоії №1. Зауважте, що розподіл друої сукупності також має один параметр.

Щоби порівняти розподіли цих двох сукупностей, ми будуємо дві різні моделі. Перша модель моделює, що ці дві сукупності мають потенційно різні біноміальні розподіли. Функцією правдоподібності для першої моделі відтак є добуток правдоподібностей для двох відмінних біноміальних розподілів, тож вона має два параметри: p, q. Щоби бути точними, ця функція правдоподібності є наступною:

Друга модель моделює, що ці дві сукупності мають один і той же розподіл. Функція правдоподібності для другої моделі відтак встановлює в наведеному вище рівнянні p = q, тож ця друга модель має один параметр.

Потім ми максимізуємо ці функції правдоподібності для цих двох моделей (на практиці ми максимізуємо функції логарифмічної правдоподібності), після чого стає просто обчислити значення ІКА цих моделей. Далі ми обчислюємо відносну правдоподібність. Наприклад, якщо друга модель виявилася лише в 0.01 разів правдоподібнішою за першу, то ми виключимо другу модель з подальшого розгляду: тож ми можемо зробити висновок, що ці дві сукупності мають різні розподіли.

Засади статистики

Статистичне висновування розглядають як таке, що складається з перевіряння та оцінювання гіпотез. Перевіряння гіпотез можливо здійснювати за допомогою ІКА, як обговорено вище. Стосовно оцінювання, існує два типи: точкове оцінювання та інтервальне оцінювання[en]. Точкове оцінювання можливо здійснювати в межах парадигми ІКА: його забезпечує оцінка максимальної правдоподібності. Інтервальне оцінювання також можливо здійснювати в межах парадигми ІКА: його забезпечують інтервали правдоподібності. Отже, статистичне висновування загалом можливо здіснювати в межах парадигми ІКА.

Найширше вживаними парадигмами статистичного висновування є частотницьке висновування та баєсове висновування. Проте ІКА можливо використовувати для статистичного висновування без покладання як на частотницьку парадигму, так і на баєсову, оскільки ІКА можливо інтерпретувати без допомоги рівнів значущості та баєсових апріорних.[9] Іншими словами, ІКА може бути використано для формування засад статистики[en], відмінних як від частотництва, так і від баєсівства.[10][11]

Видозміна для маленького розміру вибірки

Коли розмір вибірки є маленьким, існує реальна йморвіність того, що ІКА обиратиме моделі, які мають забагато параметрів, тобто, що ІКА перенавчатиметься.[12][13][14] Для подолання такого потенційного перенавчання було розроблено ІКАк: це ІКА з коригуванням для маленьких розмірів виборок.

Формула ІКАк залежить від статистичної моделі. Якщо виходити з того, що модель є одновимірною[en], лінійною відносно своїх параметрів, та має нормально розподілені залишки (обумовлені регресорами), то формула ІКАк є такою:[15][16]

де n позначає розмір вибірки, а k позначає кількість параметрів. Таким чином, ІКАк по суті є ІКА з додатковим членом штрафу на число параметрів. Зауважте, що коли n → ∞, цей додатковий член штрафу збігається до 0, і відтак ІКАк збігається до ІКА.[17]

Якщо припущення про те, що модель є одновимірною та лінійною з нормальними залишками, не виконується, то формула ІКАк в загальному випадку відрізнятиметься від наведеної вище. Для деяких моделей визначити цю формулу може бути складно. Втім, для кожної моделі, для якої існує ІКАк, формула ІКАк задається як ІКА плюс член, який включає як k, так і k2. Для порівняння, формула ІКА включає k, але не k2. Іншими словами, ІКА є оцінкою першого порядку[en] (втрат інформації), в той час як ІКАк є оцінкою другого порядку[en].[18]

Подальше обговорення цієї формули, з прикладами та іншими припущеннями, наведено в Бернем та Андерсон, 2002, гл. 7 та Конісі та Кітаґава, 2008, гл. 7–8. Зокрема, за інших припущень, часто є придатною натяжкова оцінка цієї формули.

Щоби підсумувати, ІКАк має перевагу в схильності бути точнішим за ІКА (особливо для малих виборок), але ІКАк також має недолік іноді бути набагато складнішим для обчислення, ніж ІКА. Зауважте, що якщо всі моделі-кандидати мають однакову k та однакові формули ІКАк, то ІКАк та ІКА даватимуть ідентичні (відносно) оцінки. Отже, не буде недоліку в застосуванні ІКА замість ІКАк. Крім того, якщо n у багато разів більше за k2, то додатковий член штрафу буде незначним, а отже, незначними будуть і недоліки застосування ІКА замість ІКАк.

Історія

Хіроцуґу Акаіке[ja]

Інформаційний критерій Акаіке було сформульовано статистиком Хіроцуґу Акаіке[en]. Первинно його було названо «інформаційним критерієм».[19] Англійською про нього було вперше заявлено Акаіке на симпозіумі 1971 року, протокол якого було опубліковано 1973 року.[19][20] Публікація 1973 року, однак, була лише неформальним представленням цих понять.[21] Першою формальною публікацією була праця Акаіке 1974 року.[4] Станом на жовтень 2014 року праця 1974 року отримала понад 14 000 цитувань в Web of Science, ставши 73-тьою найцитованішою працею за всі часи.[22]

На сьогодні ІКА став настільки поширеним, що його часто використовують без цитування праці Акаіке 1974 року. Дійсно, існує понад 150 000 наукових статей/книг, що використовують ІКА (за оцінкою Google Scholar).[23]

Початкове виведення ІКА покладалося на деякі сильні припущення. Такеуті, 1976 показав, що ці припущення може бути зроблено значно слабшими. Але праця Такеуті була японською, і не була широко відомою за межами Японії протягом багатьох років.

ІКАк початково запропонував для лінійної регресії (лише) Суґіура, 1978. Це спровокувало працю Гурвич та Цай, 1989 та кілька подальших праць цих же авторів, що розширили ситуації, в яких можливо застосовувати ІКАк.

Першим загальним викладом підходу теорії інформації була книга Бернем та Андерсон, 2002. Вона включає англомовне представлення праці Такеуті. Ця книга призвела до поширення застосування ІКА, і наразі вона має понад 48 000 цитувань на Google Scholar.

Акаіке назвав свій підхід «принципом максимізації ентропії», оскільки він ґрунтується на понятті ентропії в теорії інформації. Дійсно, мінімізація ІКА в статистичній моделі є фактично рівнозначною максимізації ентропії в термодинамічній системі; іншими словами, підхід теорії інформації в статистиці є по суті застосуванням другого закону термодинаміки. По суті, ІКА має корені в праці Людвіга Больцмана про ентропію. Більше про ці питання див. Акаіке, 1985 та Бернем та Андерсон, 2002, гл. 2.

Поради щодо застосування

Підрахунок параметрів

Статистична модель мусить пристосовуватися до всіх точок даних. Таким чином, пряма лінія сама по собі не є моделлю даних, якщо не всі точки даних лежать точно на цій лінії. Проте ми можемо обрати модель, яка є «прямою лінією плюс шум»; таку модель може бути формально описано таким чином: yi = b0 + b1xi + εi. Тут εi є залишками від пристосовування прямої лінії. Якщо εi вважаються гаусовими НОР (з нульовим середнім значенням), то модель має три параметри: b0, b1 та дисперсію цих гаусових розподілів. Отже, при обчисленні ІКА цієї моделі ми повинні використовувати k=3. Загальніше, для будь-якої моделі найменших квадратів з гаусовими НОР залишками дисперсія розподілів залишків повинна рахуватися як один з параметрів.[24]

Як інший приклад розгляньмо авторегресійну модель першого порядку, визначену як xi = c + φxi−1 + εi, де εi є гаусовими НОР (з нульовим середнім значенням). У випадку цієї моделі існує три параметри: c, φ та дисперсія εi. Загальніше, авторегресійна модель p-того порядку має p + 2 параметри. (Проте, якщо c не оцінюється з даних, а є натомість заданим заздалегідь, тоді параметрів є лише p + 1.)

Перетворювання даних

Значення ІКА для всіх моделей-кандидатів мусить бути обчислювано на одному й тому ж наборі даних. Проте іноді нам може захотітися порівняти модель змінної відгуку, y, із моделлю логарифму змінної відгуку, log(y). Загальніше, нам може захотітися порівняти модель даних із моделлю перетворених даних. Далі наведено ілюстрацію того, як давати раду перетворенням даних (пристосовано з Бернем та Андерсон, 2002, §2.11.3: «Дослідники повинні бути впевнені, що моделюють всі гіпотези, застосовуючи одну й ту ж змінну відгуку»).

Припустімо, що ми хочемо порівнювати дві моделі: одну з нормальним розподілом y, та одну з нормальним розподілом log(y). Ми не повинні порівнювати значення ІКА двох моделей напряму. Натомість ми повинні перетворити нормальну кумулятивну функцію розподілу, щоби спочатку взяти логарифм y. Для здійснення цього нам потрібно виконати відповідне інтегрування підставлянням[en]: таким чином, нам потрібно помножити на похідну функції (натурального) логарифму, що є 1/y. Отже, перетворений розподіл має наступну функцію густини ймовірності:

що є функцією густини ймовірності логнормального розподілу. Тепер ми можемо порівнювати значення ІКА нормальної моделі зі значенням ІКА логнормальної моделі.

Ненадійність програмного забезпечення

Деяке статистичне програмне забезпечення повідомлятиме значення ІКА або максимальне значення функції логарифмічної правдоподібності, але ці значення не завжди є правильними. Як правило, неправильність спричинюється нехтуванням сталою в логарифмічній функції правдоподібності. Наприклад, функцією логарифмічної правдоподібності для n незалежних ідентичних нормальних розподілів є

Це є функцією, що максимізують при отримуванні значення ІКА. Проте деяке програмне забезпечення нехтує сталим членом (n/2)ln(2π), і таким чином повідомляє помилкові значення максимумів логарифмічних правдоподібностей, і, відтак, ІКА. Такі помилки не мають значення для порівнянь на основі ІКА, якщо всі моделі мають нормально розподілені залишки, оскільки тоді помилки взаємно компенсуються. Проте в загальному випадку сталий член потребує включення до функції логарифмічної правдоподібності.[25] Отже, перш ніж застосовувати програмне забезпечення для обчислення ІКА, в загальному випадку є гарною звичкою виконати якісь прості перевірки на цьому програмному забезпеченні, щоби переконатися, що значення цієї функції є правильними.

Порівняння з іншими методами обирання моделі

Порівняння з БІК

Формула баєсова інформаційного критерію (БІК) є подібною до формули ІКА, але має відмінний штраф на число параметрів. В ІКА цим штрафом є 2k, тоді як в БІК штрафом є ln(n)k.

Порівняння ІКА/ІКАк та БІК наведено в Бернем та Андерсон, 2002, §6.3-6.4, з подальшими зауваженнями в Бернем та Андерсон, 2004. Автори показують, що ІКА/ІКАк може бути виведено в такій самій баєсовій системі, що й БІК, просто застосованням інших апріорних імовірностей. Проте, в баєсовім виведенні БІК кожна модель-кандидат має апріорну ймовірність 1/R (де R є числом моделей-кандидатів). Таке виведення є «не чутливим» (англ. not sensible), оскільки апріорне повинне бути спадною функцією від k. Крім того, ці автори представляють кілька імітаційних досліджень, які наводять на думку, що ІКА має схильність мати практичні/продуктивні переваги над БІК.

Деякі дослідники підкреслили, що ІКА та БІК підходять для різних задач. Зокрема, вважають, що БІК підходить для обирання «істинної моделі» (тобто, процесу, що породив дані) з набору моделей кандидатів, тоді як ІКА для цього не підходить. Конкретніше, якщо «істинна модель» є присутньою в наборі моделей-кандидатів, то БІК обере цю «істинну модель» з імовірністю 1, за n → ∞. На противагу цьому, при здійсненні обирання за допомогою ІКА, ця ймовірність може бути меншою за 1.[26][27][28] Прибічники ІКА стверджують, що ця проблема є незначною, оскільки «істинна модель» практично ніколи не буває присутньою в наборі кандидатів. Дійсно, у статистиці є поширеним афоризм, що «всі моделі є неправильними»[en], тож «істинна модель» (тобто, реальність) не може бути в наборі кандидатів.

Ще одне порівняння ІКА та БІК наведено у Врізе, 2012. Врізе представляє імітаційне дослідження, яке дозволяє «істинній моделі» бути в наборі кандидатів (на відміну від практично всіх реальних даних). Це імітаційне дослідження показує, зокрема, що ІКА іноді обирає набагато кращу модель, ніж БІК, навіть коли «істинна модель» перебуває в наборі кандидатів. Причина цього полягає в тім, що для скінченних n БІК може мати істотний ризик обрання з набору кандидатів дуже поганої моделі. Ця причина може проявлятися навіть коли n є набагато більшим за k2. З ІКА ризик обрання дуже поганої моделі є мінімальним.

Якщо «істинної моделі» в наборі кандидатів немає, то найбільше, що ми можемо сподіватися зробити, це обрати модель, яка найкраще наближує «істинну». ІКА підходить для пошуку найкращої наближувальної моделі, за деяких припущень.[26][27][28] (Ці припущення включають, зокрема, те, що наближування здійснюють по відношенню до втрати інформації.)

Порівняння ІКА та БІК у контексті регресії наведено в Янг, 2005. В регресії ІКА є асимптотично оптимальним для обирання моделі з найменшою середньоквадратичною похибкою[en], за припущення, що «істинна модель» не перебуває в наборі кандидатів. БІК не є асимптотично оптимальним за цього припущення. Янг додатково показує, що темп, з яким ІКА збігається до оптимуму, в певному сенсі є найкращим з можливих.

Порівняння з перехресним затверджуванням

Перехресне затверджування з виключенням по одному є асимптотично рівнозначним ІКА для звичайних лінійних регресійних моделей.[29] Асимптотична еквівалентність до ІКА також має місце й для моделей зі змішаними рівнями факторів.[30]

Порівняння з найменшими квадратами

Іноді кожна з моделей-кандидатів передбачає, що залишки розподілено відповідно до незалежних ідентичних нормальних розподілів (з нульовим середнім). Це дає привід для пристосовування моделей найменшими квадратами.

При пристосовуванні найменшими квадратами оцінкою максимальної правдоподібності для дисперсії розподілів залишків моделі є , де є залишковою сумою квадратів[en] (англ. Residual Sum of Squares): . Тоді максимальним значенням функції логарифмічної правдоподібності моделі є

де C є сталою, що не залежить від моделі, а залежить лише від конкретних точок даних, тобто, вона не змінюється, якщо не змінюються дані.

Це дає AIC = 2k + nln(RSS/n) − 2C = 2k + nln(RSS) − (nln(n) + 2C).[24] Оскільки в ІКА мають значення лише різниці, сталою (nln(n) + 2C) можливо нехтувати, що дозволяє нам зручно брати для порівнювання моделей AIC = 2k + nln(RSS). Зауважте, що якщо всі ці моделі мають однакове k, то обирання моделі з мінімальним ІКА є рівнозначним обиранню моделі з мінімальною RSS, що є звичайною метою обирання моделі на основі найменших квадратів.

Порівняння з Cp Меллоуза

Cp Меллоуза[en] є еквівалентом ІКА у випадку (гаусової) лінійної регресії.[31]

Див. також

Примітки

  1. McElreath, Richard (2016). Statistical Rethinking: A Bayesian Course with Examples in R and Stan. CRC Press. с. 189. ISBN 978-1-4822-5344-3. AIC provides a surprisingly simple estimate of the average out-of-sample deviance. (англ.)
  2. Taddy, Matt (2019). Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. New York: McGraw-Hill. с. 90. ISBN 978-1-260-45277-8. The AIC is an estimate for OOS deviance. (англ.)
  3. Бернем та Андерсон, 2002, §2.2.
  4. а б Акаіке, 1974.
  5. Бернем та Андерсон, 2002, §2.9.1, §6.4.5.
  6. Бернем та Андерсон, 2002.
  7. Бернем та Андерсон, 2002, §2.12.4.
  8. Мерта, 2014.
  9. Бернем та Андерсон, 2002, с. 99.
  10. Бандьопадхяя та Форстер, 2011.
  11. Сакамото та ін., 1986.
  12. МакКуоррі та Цай, 1998.
  13. Клаескенс та Йорт, 2008, §8.3.
  14. Жиро, 2015, §2.9.1.
  15. Кавано, 1997.
  16. Бернем та Андерсон, 2002, §2.4.
  17. Бернем та Андерсон, 2004.
  18. Бернем та Андерсон, 2002, §7.4.
  19. а б Фіндлі та Парцен, 1995.
  20. Акаіке, 1973.
  21. де Лев, 1992.
  22. Van Noordon R., Maher B., Nuzzo R. (2014), "The top 100 papers", Nature, 514. (англ.)
  23. Джерела, що містять як «Akaike», так і «AIC», на Google Scholar.
  24. а б Бернем та Андерсон, 2002, с. 63.
  25. Бернем та Андерсон, 2002, с. 82.
  26. а б Бернем та Андерсон, 2002, §6.3-6.4.
  27. а б Врізе, 2012.
  28. а б Ахо, Дерріберрі та Петерсон, 2014.
  29. Стоун, 1977.
  30. Фан, 2011.
  31. Boisbunon та ін., 2014.

Джерела

Література