Обирання моделі

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Обира́ння моде́лі (англ. model selection) — задача обирання статистичної моделі з множини моделей-кандидатів за заданих даних. В найпростіших випадках розглядають вже наявний набір даних. Проте до цієї задачі входить і планування таких експериментів, щоби збирані дані добре підходили для задачі обирання моделі. За заданих моделей-кандидатів подібної передбачувальної або пояснювальної сили найкращим вибором, швидше за все, буде найпростіша модель.

Конісі та Кітагава, (2008, с. 75) заявляють, що «Більшість задач у статистичному висновуванні можна розглядати як задачі, пов'язані зі статистичним моделюванням». Пов'язано з цим, Кокс, (2006, с. 197) сказав: «Як здійснюється перенесення з моделі предметної області на статистичну модель, часто є найкритичнішою частиною аналізу».

Введення[ред.ред. код]

Цикл наукового спостереження.

У своєму найпростішому вигляді, обирання моделі є однією з основних задач наукового дослідження. Визначення принципу, який пояснює ряд спостережень, часто безпосередньо пов'язано з математичною моделлю, що передбачує ці спостереження. Наприклад, коли Галілей виконував свої експерименти з похилою площиною[en], він показував, що рух куль відповідав параболі, передбаченій його моделлю.

Як хоча би почати обирати найкращу модель з незліченного числа можливих механізмів та процесів, що могли породити дані? Браний зазвичай математичний підхід обирає серед множини моделей-кандидатів; цю множину мусить бути обрано дослідником. Часто використовують прості моделі, такі як поліноміальні, принаймні спочатку. Бернем та Андерсон, (2002) у своїй книзі підкреслюють важливість обирання моделі на основі правильних математичних принципів, таких як розуміння феноменологічних процесів або механізмів (наприклад, хімічних реакцій), що лежать в основі даних.

Щойно обрано множину моделей-кандидатів, статистичний аналіз дає нам можливість обирати найкращу з них. Розуміння того, що таке найкраща, є спірним. Добра методика обирання моделі балансуватиме між пристосованістю та простотою. Складніші моделі матимуть кращу здатність пристосовувати свою форму до даних (наприклад, многочлен п'ятого степеня може точно пристосуватися до шести точок), але ці додаткові параметри можуть не представляти нічого корисного. (Можливо, ці шість точок насправді просто випадково розкидано по прямій ліній.) Пристосованість, як правило, визначають застосуванням підходу відношення правдоподібностей, або його наближення, що веде до критерію хі-квадрат. Складність, як правило, вимірюють шляхом підрахунку числа параметрів моделі.

Методики обирання моделі можна розглядати як оцінки деякої фізичної величини, такої як ймовірність моделі, що виробляє задані дані. Важливими мірами якості цієї оцінки є як зсув, так і дисперсія, також розглядають й ефективність[en].

Стандартним прикладом обирання моделі є пристосовування кривої[en], в якому для заданої множини точок та інших знань про обстановку (наприклад, що точки є результатом НОР-вибірки) ми мусимо обирати криву, яка описує функцію, що породила ці точки.

Методи обирання множини моделей-кандидатів[ред.ред. код]

Критерії для обирання моделі[ред.ред. код]

Найширше вживаними критеріями є (i) інформаційний критерій Акаіке та (ii) коефіцієнт Баєса та/або баєсів інформаційний критерій (який до певної міри наближує коефіцієнт Баєса).

Див. також[ред.ред. код]

Джерела[ред.ред. код]