Баєсове ієрархічне моделювання

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Ба́єсове ієрархі́чне моделюва́ння (англ. Bayesian hierarchical modelling) — це статистична модель, написана в декілька рівнів (ієрархічний вигляд), яка оцінює параметри[en] апостеріорного розподілу із застосуванням баєсового методу.[1] Підмоделі об'єднуються для утворення ієрархічної моделі, а для поєднання їх в одне ціле зі спостережуваними даними та врахуванням всієї присутньої невизначеності застосовується теорема Баєса. Результатом цього поєднання є апостеріорний розподіл, відомий також як уточнена оцінка ймовірності за отримання додаткового свідчення про апріорний розподіл.

Частотницька статистика, популярніша основа статистики[en], може видавати висновки, здавалося би, несумісні з тими, що пропонує баєсова статистика, через баєсове трактування параметрів як випадкових змінних, і використання суб'єктивної інформації у встановленні припущень стосовно цих параметрів.[2] Оскільки ці підходи дають відповіді на різні питання, то формальні результати не є технічно суперечливими, але ці два підходи не погоджуються стосовно того, яка відповідь є доречною для певного застосування. Баєсівці переконують, що доречною інформацією стосовно ухвалення рішень та уточнення переконань нехтувати не можна, і що ієрархічне моделювання має потенціал взяти гору над класичними методами в застосуваннях, в яких доповідачі дають декілька варіантів даних спостережень. Більше того, ця модель довела свою робастність, з меншою чутливістю апостеріорного розподілу до гнучкіших ієрархічних апріорних.

Ієрархічне моделювання застосовують, коли інформація є доступною на декількох різних рівнях одиниць вимірювання. Ієрархічна форма аналізу та організації допомагає в розумінні багатопараметрових задач, а також відіграє важливу роль у розробці обчислювальних стратегій.[3]

Філософія[ред. | ред. код]

Численні статистичні застосування передбачають декілька параметрів, які можливо розглядати як пов'язані або взаємопоєднані таким чином, що ця задача передбачає залежність моделі спільної ймовірності для цих параметрів.[4] Окремі міри переконань, виражені у вигляді ймовірностей, мають свою невизначеність.[5] Крім цього, є зміна мір переконань з часом. Як було зазначено професором Хосе Бернардо[en] та професором Адріаном Смітом[en], «Реальність процесу навчання складається з розвитку окремих та суб'єктивних переконань про дійсність.» Ці суб'єктивні ймовірності залучаються в розумі пряміше, ніж фізичні ймовірності.[6] Відтак, саме через цю потребу уточнювати переконання баєсівці сформулювали альтернативну статистичну модель, яка враховує попереднє трапляння певної події.[7]

Теорема Баєса[ред. | ред. код]

Передбачуване трапляння реальної події зазвичай змінюватиме переваги між певними варіантами. Це здійснюється змінюванням мір переконання, закріплених особою за подіями, що визначають ці варіанти.[8]

Припустімо, що в дослідженні дієвості серцевого лікування з пацієнтами лікарні j, що має ймовірність виживання , ймовірність виживання уточнюватиметься траплянням y, події створення гіпотетичної дискусійної сироватки, яка, як дехто вважає, збільшує виживаність серцевих пацієнтів.

Щоби зробити уточнені ймовірнісні твердження про , маючи трапляння події y, ми мусимо почати з моделі, яка забезпечує спільний розподіл імовірності для та y. Це може бути записано як добуток двох розподілів, які часто називають апріорним розподілом та вибірковим розподілом відповідно:

З використанням основної властивості умовної ймовірності, апостеріорний розподіл дасть:

Це рівняння, що показує взаємозв'язок між умовною ймовірністю та окремими подіями, відоме як теорема Баєса. Цей простий вираз містить у собі технічне ядро баєсового висновування, що має на меті конструювання уточненого переконання, , доречними та розв'язними способами.[8]

Взаємозамінюваність[ред. | ред. код]

Звичною відправною точкою статистичного аналізу є припущення, що n значень є взаємозамінюваними. Якщо не доступно жодної інформації, крім даних y, щоби відрізняти будь-яке з від інших, і неможливо зробити жодного впорядкування чи групування параметрів, то необхідно виходити з симетричності серед параметрів у їхньому апріорному розподілі.[9] Цю симетрію ймовірнісно представлено взаємозамінюваністю. Загалом, маючи деякий невідомий вектор параметрів з розподілом , корисно та доречно моделювати дані зі взаємозамінюваного розподілу, як незалежно та однаково розподілені.

Скінченна взаємозамінюваність[ред. | ред. код]

Для незмінного числа n набір є взаємозамінюваним, якщо спільний розподіл є інваріантним відносно переставляння індексів. Тобто, для кожного переставлення або індексів (1, 2, …, n), [10]

Наступний приклад є взаємозамінюваним, але не незалежним та однаково розподіленим (НОР): Розгляньмо глек із червоною та синьою кулями всередині, з імовірністю витягання кожної. Кулі витягують без повернення, тобто після витягування однієї кулі з n куль для наступного витягування там залишатиметься n − 1 куль.

Нехай якщо -та куля є червоною
інакше.

Оскільки ймовірність обрання червоної кулі в першому витягуванні та синьої кулі у другому витягуванні дорівнює ймовірності обрання синьої кулі в першому витягуванні та червоної кулі в другому, обидві з яких дорівнюють 1/2 (тобто, ), то та є взаємозамінюваними.

Але ймовірністю обрання червоної кулі в другому витягуванні, коли червону кулю вже було обрано в першому, є 0, і вона не дорівнює ймовірності обрання червоної кулі в другому витягуванні, яка дорівнює 1/2 (тобто, ). Таким чином, та не є незалежними.

Якщо є незалежними та однаково розподіленими, то вони є взаємозамінюваними, але обернене є не обов'язково істинним.[11]

Нескінченна взаємозамінюваність[ред. | ред. код]

Нескінченна взаємозамінюваність — це така властивість, що кожна скінченна підмножина нескінченної послідовності , є взаємозамінюваною. Тобто, для будь-якого n послідовність є взаємозамінюваною.[11]

Ієрархічні моделі[ред. | ред. код]

Складові[ред. | ред. код]

Баєсове ієрархічне моделювання при виведенні апостеріорного розподілу використовує два важливі поняття,[1] а саме:

  1. Гіпермараметри: параметри апріорного розподілу
  2. Гіперапріорні: розподіли гіперпараметрів

Припустімо, що випадкова змінна Y слідує нормальному розподілові з параметром θ як середнє та 1 як дисперсія, тобто, . Припустімо також, що параметр має розподіл, заданий нормальним розподілом із середнім та дисперсією 1, тобто, . Більше того, слідує іншому заданому розподілові, наприклад, стандартному нормальному розподілові, . Параметр називають гіперпараметром, тоді як його розподіл, заданий як , є прикладом гіперапріорного розподілу. Запис розподілу Y змінюється із додаванням нового параметру, тобто, . Якщо є додатковий рівень, скажімо, слідує іншому нормальному розподілові з середнім та дисперсією , що означає , то та також може бути названо гіперпараметрами, тоді як їхні розподіли є також гіперапріорними розподілами.[4]

Система[ред. | ред. код]

Нехай є спостереженням, а  — параметром, що регулює процес породжування даних для . Припустімо далі, що параметри породжуються взаємозамінювано зі спільної генеральної сукупності, з розподілом, керованим гіперпараметром .

Ця баєсова ієрархічна модель містить наступні рівні:

Рівень I:
Рівень II:
Рівень III:

Правдоподібністю, як видно на рівні I, є , з як її апріорним розподілом. Зауважте, що ця правдоподібність залежить від лише через .

Апріорний розподіл з рівня I може бути розбито як

[з визначення умовної ймовірності]

з як його гіперпараметром з гіперапріорним розподілом .

Таким чином, апостеріорний розподіл є пропорційним до:

[із застосуванням теореми Баєса]
[12]

Приклад[ред. | ред. код]

Щоби додатково проілюструвати це, розгляньмо наступний приклад.

Вчитель хоче оцінити, наскільки добре учень виконав свій тест SAT. Щоби оцінити це, він використовує інформацію про бали цього учня в старшій школі, та його поточний середній бал (grade point average, GPA). Його поточний середній бал, позначуваний через , має правдоподібність, задану деякою функцією ймовірності з параметром , наприклад, . Цей параметр є оцінкою SAT учня. Оцінку SAT розглядають як зразок, що береться зі спільного розподілу генеральної сукупності, проіндексованого за іншим параметром , що є балом цього учня зі старшої школи.[13] Тобто, . Крім того, гіперпараметр слідує своєму власному розподілові, заданому , гіперапріорному.

Щоби отримати розв'язок для оцінки SAT, маючи інформацію про GPA,

Для отримання розв'язку для апостеріорного розподілу буде використано всю інформацію в задачі. Замість розв'язування з використанням лише апріорного розподілу та функції правдоподібності, використання гіперапріорних дає більше інформації для отримування точніших переконань про поведінку параметра.[14]

Дворівнева ієрархічна модель[ред. | ред. код]

Загалом, спільним апостеріорним розподілом, що нас цікавить, у дворівневій ієрархічній моделі є:

[14]

Трирівнева ієрархічна модель[ред. | ред. код]

Для трирівневої ієрархічної моделі апостеріорний розподіл задається так:

[14]

Примітки[ред. | ред. код]

  1. а б Allenby, Rossi, McCulloch (January 2005). "Hierarchical Bayes Model: A Practitioner’s Guide" [Архівовано 29 серпня 2017 у Wayback Machine.]. Journal of Bayesian Applications in Marketing [Архівовано 18 жовтня 2017 у Wayback Machine.], pp. 1–4. Retrieved 26 April 2014, p. 3 (англ.)
  2. Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B. (2004). Bayesian Data Analysis (вид. second). Boca Raton, Florida: CRC Press. с. 4—5. ISBN 1-58488-388-X. Архів оригіналу за 2 червня 2014. Процитовано 15 липня 2018. {{cite book}}: Проігноровано невідомий параметр |last-author-amp= (довідка) (англ.)
  3. Gelman та ін., 2004, с. 6.
  4. а б Gelman та ін., 2004, с. 117.
  5. Good, I.J. (February 1980). “Some history of the hierarchical Bayesian methodology”[недоступне посилання з 01.07.2017]. Trabajos de Estadistica Y de Investigacion Operativa Volume 31 Issue 1 [Архівовано 15 липня 2018 у Wayback Machine.]. Springer – Verlag, p. 480 (ісп.)
  6. Good, I.J. (February 1980). “Some history of the hierarchical Bayesian methodology”[недоступне посилання з 01.07.2017]. Trabajos de Estadistica Y de Investigacion Operativa Volume 31 Issue 1 [Архівовано 15 липня 2018 у Wayback Machine.]. Springer – Verlag, pp. 489–490 (ісп.)
  7. Bernardo, Smith(1994). Bayesian Theory [Архівовано 26 липня 2020 у Wayback Machine.]. Chichester, England: John Wiley & Sons, ISBN 0-471-92416-4, p. 23 (англ.)
  8. а б Gelman та ін., 2004, с. 6–8.
  9. Bernardo, Degroot, Lindley (September 1983). “Proceedings of the Second Valencia International Meeting” [Архівовано 26 липня 2020 у Wayback Machine.]. Bayesian Statistics 2 [Архівовано 26 липня 2020 у Wayback Machine.]. Amsterdam: Elsevier Science Publishers B.V, ISBN 0-444-87746-0, pp. 167–168 (англ.)
  10. Gelman та ін., 2004, с. 121–125.
  11. а б Diaconis, Freedman (1980). “Finite exchangeable sequences”. Annals of Probability, pp. 745–747 (англ.)
  12. Bernardo, Degroot, Lindley (September 1983). “Proceedings of the Second Valencia International Meeting” [Архівовано 26 липня 2020 у Wayback Machine.]. Bayesian Statistics 2 [Архівовано 26 липня 2020 у Wayback Machine.]. Amsterdam: Elsevier Science Publishers B.V, ISBN 0-444-87746-0, pp. 371–372 (англ.)
  13. Gelman та ін., 2004, с. 120–121.
  14. а б в Box G. E. P., Tiao G. C. (1965). "Multiparameter problem from a bayesian point of view". Multiparameter Problems From A Bayesian Point of View Volume 36 Number 5 [Архівовано 15 січня 2019 у Wayback Machine.]. New York City: John Wiley & Sons, ISBN 0-471-57428-7 (англ.)