Баєсове ієрархічне моделювання

Перевірена версія цієї сторінки, затверджена 15 липня 2018, заснована на цій версії.

Ба́єсове ієрархі́чне моделюва́ння (англ. Bayesian hierarchical modelling) — це статистична модель, написана в декілька рівнів (ієрархічний вигляд), яка оцінює параметри^[en] апостеріорного розподілу із застосуванням баєсового методу.^[1] Підмоделі об'єднуються для утворення ієрархічної моделі, а для поєднання їх в одне ціле зі спостережуваними даними та врахуванням всієї присутньої невизначеності застосовується теорема Баєса. Результатом цього поєднання є апостеріорний розподіл, відомий також як уточнена оцінка ймовірності за отримання додаткового свідчення про апріорний розподіл.

Частотницька статистика, популярніша основа статистики^[en], може видавати висновки, здавалося би, несумісні з тими, що пропонує баєсова статистика, через баєсове трактування параметрів як випадкових змінних, і використання суб'єктивної інформації у встановленні припущень стосовно цих параметрів.^[2] Оскільки ці підходи дають відповіді на різні питання, то формальні результати не є технічно суперечливими, але ці два підходи не погоджуються стосовно того, яка відповідь є доречною для певного застосування. Баєсівці переконують, що доречною інформацією стосовно ухвалення рішень та уточнення переконань нехтувати не можна, і що ієрархічне моделювання має потенціал взяти гору над класичними методами в застосуваннях, в яких доповідачі дають декілька варіантів даних спостережень. Більше того, ця модель довела свою робастність, з меншою чутливістю апостеріорного розподілу до гнучкіших ієрархічних апріорних.

Ієрархічне моделювання застосовують, коли інформація є доступною на декількох різних рівнях одиниць вимірювання. Ієрархічна форма аналізу та організації допомагає в розумінні багатопараметрових задач, а також відіграє важливу роль у розробці обчислювальних стратегій.^[3]

Філософія

Численні статистичні застосування передбачають декілька параметрів, які можливо розглядати як пов'язані або взаємопоєднані таким чином, що ця задача передбачає залежність моделі спільної ймовірності для цих параметрів.^[4] Окремі міри переконань, виражені у вигляді ймовірностей, мають свою невизначеність.^[5] Крім цього, є зміна мір переконань з часом. Як було зазначено професором Хосе Бернардо^[en] та професором Адріаном Смітом^[en], «Реальність процесу навчання складається з розвитку окремих та суб'єктивних переконань про дійсність.» Ці суб'єктивні ймовірності залучаються в розумі пряміше, ніж фізичні ймовірності.^[6] Відтак, саме через цю потребу уточнювати переконання баєсівці сформулювали альтернативну статистичну модель, яка враховує попереднє трапляння певної події.^[7]

Теорема Баєса

Передбачуване трапляння реальної події зазвичай змінюватиме переваги між певними варіантами. Це здійснюється змінюванням мір переконання, закріплених особою за подіями, що визначають ці варіанти.^[8]

Припустімо, що в дослідженні дієвості серцевого лікування з пацієнтами лікарні j, що має ймовірність виживання $\theta _{j}$ , ймовірність виживання уточнюватиметься траплянням y, події створення гіпотетичної дискусійної сироватки, яка, як дехто вважає, збільшує виживаність серцевих пацієнтів.

Щоби зробити уточнені ймовірнісні твердження про $\theta _{j}$ , маючи трапляння події y, ми мусимо почати з моделі, яка забезпечує спільний розподіл імовірності для $\theta _{j}$ та y. Це може бути записано як добуток двох розподілів, які часто називають апріорним розподілом $P(\theta )$ та вибірковим розподілом $P(y\mid \theta )$ відповідно:

P(\theta ,y)=P(\theta )P(y\mid \theta )

З використанням основної властивості умовної ймовірності, апостеріорний розподіл дасть:

P(\theta \mid y)={\frac {P(\theta ,y)}{P(y)}}={\frac {P(y\mid \theta )P(\theta )}{P(y)}}

Це рівняння, що показує взаємозв'язок між умовною ймовірністю та окремими подіями, відоме як теорема Баєса. Цей простий вираз містить у собі технічне ядро баєсового висновування, що має на меті конструювання уточненого переконання, $P(\theta \mid y)$ , доречними та розв'язними способами.^[8]

Взаємозамінюваність

Звичною відправною точкою статистичного аналізу є припущення, що n значень $y_{n}$ є взаємозамінюваними. Якщо не доступно жодної інформації, крім даних y, щоби відрізняти будь-яке з $\theta _{j}$ від інших, і неможливо зробити жодного впорядкування чи групування параметрів, то необхідно виходити з симетричності серед параметрів у їхньому апріорному розподілі.^[9] Цю симетрію ймовірнісно представлено взаємозамінюваністю. Загалом, маючи деякий невідомий вектор параметрів $\theta$ з розподілом $P(\theta )$ , корисно та доречно моделювати дані зі взаємозамінюваного розподілу, як незалежно та однаково розподілені.

Скінченна взаємозамінюваність

Для незмінного числа n набір $y_{1},y_{2},\ldots ,y_{n}$ є взаємозамінюваним, якщо спільний розподіл $P(y_{1},y_{2},\ldots ,y_{n})$ є інваріантним відносно переставляння індексів. Тобто, для кожного переставлення $\pi$ або $(\pi _{1},\pi _{2},\ldots ,\pi _{n})$ індексів (1, 2, …, n), $P(y_{1},y_{2},\ldots ,y_{n})=P(y_{\pi _{1}},y_{\pi _{2}},\ldots ,y_{\pi _{n}}).$ ^[10]

Наступний приклад є взаємозамінюваним, але не незалежним та однаково розподіленим (НОР): Розгляньмо глек із червоною та синьою кулями всередині, з імовірністю ${\frac {1}{2}}$ витягання кожної. Кулі витягують без повернення, тобто після витягування однієї кулі з n куль для наступного витягування там залишатиметься n − 1 куль.

Нехай $Y_{i}={\begin{cases}1,\\0,\end{cases}}$	якщо $i$ -та куля є червоною
	інакше.

Оскільки ймовірність обрання червоної кулі в першому витягуванні та синьої кулі у другому витягуванні дорівнює ймовірності обрання синьої кулі в першому витягуванні та червоної кулі в другому, обидві з яких дорівнюють 1/2 (тобто, $[P(y_{1}=1,y_{2}=0)=P(y_{1}=0,y_{2}=1)={\frac {1}{2}}]$ ), то $y_{1}$ та $y_{2}$ є взаємозамінюваними.

Але ймовірністю обрання червоної кулі в другому витягуванні, коли червону кулю вже було обрано в першому, є 0, і вона не дорівнює ймовірності обрання червоної кулі в другому витягуванні, яка дорівнює 1/2 (тобто, $[P(y_{2}=1\mid y_{1}=1)=0\neq P(y_{2}=1)={\frac {1}{2}}]$ ). Таким чином, $y_{1}$ та $y_{2}$ не є незалежними.

Якщо $x_{1},\ldots ,x_{n}$ є незалежними та однаково розподіленими, то вони є взаємозамінюваними, але обернене є не обов'язково істинним.^[11]

Нескінченна взаємозамінюваність

Нескінченна взаємозамінюваність — це така властивість, що кожна скінченна підмножина нескінченної послідовності $y_{1}$ , $y_{2},\ldots$ є взаємозамінюваною. Тобто, для будь-якого n послідовність $y_{1},y_{2},\ldots ,y_{n}$ є взаємозамінюваною.^[11]

Ієрархічні моделі

Складові

Баєсове ієрархічне моделювання при виведенні апостеріорного розподілу використовує два важливі поняття,^[1] а саме:

Гіпермараметри●: параметри апріорного розподілу
Гіперапріорні: розподіли гіперпараметрів

Припустімо, що випадкова змінна Y слідує нормальному розподілові з параметром θ як середнє та 1 як дисперсія, тобто, $Y\mid \theta \sim N(\theta ,1)$ . Припустімо також, що параметр $\theta$ має розподіл, заданий нормальним розподілом із середнім $\mu$ та дисперсією 1, тобто, $\theta \mid \mu \sim N(\mu ,1)$ . Більше того, $\mu$ слідує іншому заданому розподілові, наприклад, стандартному нормальному розподілові, ${\text{N}}(0,1)$ . Параметр $\mu$ називають гіперпараметром, тоді як його розподіл, заданий як ${\text{N}}(0,1)$ , є прикладом гіперапріорного розподілу. Запис розподілу Y змінюється із додаванням нового параметру, тобто, $Y\mid \theta ,\mu \sim N(\theta ,1)$ . Якщо є додатковий рівень, скажімо, $\mu$ слідує іншому нормальному розподілові з середнім $\beta$ та дисперсією $\epsilon$ , що означає $\mu \sim N(\beta ,\epsilon )$ , то ${\mbox{ }}$ $\beta$ та $\epsilon$ також може бути названо гіперпараметрами, тоді як їхні розподіли є також гіперапріорними розподілами.^[4]

Система

Нехай $y_{j}$ є спостереженням, а $\theta _{j}$ — параметром, що регулює процес породжування даних для $y_{j}$ . Припустімо далі, що параметри $\theta _{1},\theta _{2},\ldots ,\theta _{j}$ породжуються взаємозамінювано зі спільної генеральної сукупності, з розподілом, керованим гіперпараметром $\phi$ .

Ця баєсова ієрархічна модель містить наступні рівні:

Рівень I:

y_{j}\mid \theta _{j},\phi \sim P(y_{j}\mid \theta _{j},\phi )

Рівень II:

\theta _{j}\mid \phi \sim P(\theta _{j}\mid \phi )

Рівень III:

\phi \sim P(\phi )

Правдоподібністю, як видно на рівні I, є $P(y_{j}\mid \theta _{j},\phi )$ , з $P(\theta _{j},\phi )$ як її апріорним розподілом. Зауважте, що ця правдоподібність залежить від $\phi$ лише через $\theta _{j}$ .

Апріорний розподіл з рівня I може бути розбито як

P(\theta _{j},\phi )=P(\theta _{j}\mid \phi )P(\phi )

[з визначення умовної ймовірності]

з $\phi$ як його гіперпараметром з гіперапріорним розподілом $P(\phi )$ .

Таким чином, апостеріорний розподіл є пропорційним до:

P(\phi ,\theta _{j}\mid y)\propto P(y_{j}\mid \theta _{j},\phi )P(\theta _{j}\mid \phi )

[із застосуванням теореми Баєса]

P(\phi ,\theta _{j}\mid y)\propto P(y_{j}\mid \theta _{j})P(\theta _{j},\phi )

^[12]

Приклад

Щоби додатково проілюструвати це, розгляньмо наступний приклад.

Вчитель хоче оцінити, наскільки добре учень виконав свій тест SAT. Щоби оцінити це, він використовує інформацію про бали цього учня в старшій школі, та його поточний середній бал● (grade point average, GPA). Його поточний середній бал, позначуваний через $Y$ , має правдоподібність, задану деякою функцією ймовірності з параметром $\theta$ , наприклад, $Y\mid \theta \sim P(Y\mid \theta )$ . Цей параметр $\theta$ є оцінкою SAT учня. Оцінку SAT розглядають як зразок, що береться зі спільного розподілу генеральної сукупності, проіндексованого за іншим параметром $\phi$ , що є балом цього учня зі старшої школи.^[13] Тобто, $\theta \mid \phi \sim P(\theta \mid \phi )$ . Крім того, гіперпараметр $\phi$ слідує своєму власному розподілові, заданому $P(\phi )$ , гіперапріорному.

Щоби отримати розв'язок для оцінки SAT, маючи інформацію про GPA,

P(\theta ,\phi \mid Y)\propto P(Y\mid \theta ,\phi )P(\theta ,\phi )

P(\theta ,\phi \mid Y)\propto P(Y\mid \theta )P(\theta \mid \phi )P(\phi )

Для отримання розв'язку для апостеріорного розподілу буде використано всю інформацію в задачі. Замість розв'язування з використанням лише апріорного розподілу та функції правдоподібності, використання гіперапріорних дає більше інформації для отримування точніших переконань про поведінку параметра.^[14]

Дворівнева ієрархічна модель

Загалом, спільним апостеріорним розподілом, що нас цікавить, у дворівневій ієрархічній моделі є:

P(\theta ,\phi \mid Y)={P(Y\mid \theta ,\phi )P(\theta ,\phi ) \over P(Y)}={P(Y\mid \theta )P(\theta \mid \phi )P(\phi ) \over P(Y)}

P(\theta ,\phi \mid Y)\propto P(Y\mid \theta )P(\theta \mid \phi )P(\phi )

^[14]

Трирівнева ієрархічна модель

Для трирівневої ієрархічної моделі апостеріорний розподіл задається так:

P(\theta ,\phi ,X\mid Y)={P(Y\mid \theta )P(\theta \mid \phi )P(\phi \mid X)P(X) \over P(Y)}

P(\theta ,\phi ,X\mid Y)\propto P(Y\mid \theta )P(\theta \mid \phi )P(\phi \mid X)P(X)

^[14]

Примітки

↑ ^а ^б Allenby, Rossi, McCulloch (January 2005). "Hierarchical Bayes Model: A Practitioner’s Guide". Journal of Bayesian Applications in Marketing, pp. 1–4. Retrieved 26 April 2014, p. 3 (англ.)
↑ Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B. (2004). Bayesian Data Analysis (вид. second). Boca Raton, Florida: CRC Press. с. 4—5. ISBN 1-58488-388-X. {{cite book}}: Проігноровано невідомий параметр |last-author-amp= (довідка) (англ.)
↑ Gelman та ін., 2004, с. 6.
↑ ^а ^б Gelman та ін., 2004, с. 117.
↑ Good, I.J. (February 1980). “Some history of the hierarchical Bayesian methodology”^{[недоступне посилання з 01.07.2017]}. Trabajos de Estadistica Y de Investigacion Operativa Volume 31 Issue 1. Springer – Verlag, p. 480 (ісп.)
↑ Good, I.J. (February 1980). “Some history of the hierarchical Bayesian methodology”^{[недоступне посилання з 01.07.2017]}. Trabajos de Estadistica Y de Investigacion Operativa Volume 31 Issue 1. Springer – Verlag, pp. 489–490 (ісп.)
↑ Bernardo, Smith(1994). Bayesian Theory. Chichester, England: John Wiley & Sons, ISBN 0-471-92416-4, p. 23 (англ.)
↑ ^а ^б Gelman та ін., 2004, с. 6—8.
↑ Bernardo, Degroot, Lindley (September 1983). “Proceedings of the Second Valencia International Meeting”. Bayesian Statistics 2. Amsterdam: Elsevier Science Publishers B.V, ISBN 0-444-87746-0, pp. 167–168 (англ.)
↑ Gelman та ін., 2004, с. 121—125.
↑ ^а ^б Diaconis, Freedman (1980). “Finite exchangeable sequences”. Annals of Probability, pp. 745–747 (англ.)
↑ Bernardo, Degroot, Lindley (September 1983). “Proceedings of the Second Valencia International Meeting”. Bayesian Statistics 2. Amsterdam: Elsevier Science Publishers B.V, ISBN 0-444-87746-0, pp. 371–372 (англ.)
↑ Gelman та ін., 2004, с. 120—121.
↑ ^а ^б ^в Box G. E. P., Tiao G. C. (1965). "Multiparameter problem from a bayesian point of view". Multiparameter Problems From A Bayesian Point of View Volume 36 Number 5. New York City: John Wiley & Sons, ISBN 0-471-57428-7 (англ.)

[allenby-1] а ^б Allenby, Rossi, McCulloch (January 2005). "Hierarchical Bayes Model: A Practitioner’s Guide". Journal of Bayesian Applications in Marketing, pp. 1–4. Retrieved 26 April 2014, p. 3 (англ.)

[2] Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B. (2004). Bayesian Data Analysis (вид. second). Boca Raton, Florida: CRC Press. с. 4—5. ISBN 1-58488-388-X. {{cite book}}: Проігноровано невідомий параметр |last-author-amp= (довідка) (англ.)

[FOOTNOTEGelmanCarlinSternRubin20046-3] Gelman та ін., 2004, с. 6.

[FOOTNOTEGelmanCarlinSternRubin2004117-4] а ^б Gelman та ін., 2004, с. 117.

[5] Good, I.J. (February 1980). “Some history of the hierarchical Bayesian methodology”^{[недоступне посилання з 01.07.2017]}. Trabajos de Estadistica Y de Investigacion Operativa Volume 31 Issue 1. Springer – Verlag, p. 480 (ісп.)

[6] Good, I.J. (February 1980). “Some history of the hierarchical Bayesian methodology”^{[недоступне посилання з 01.07.2017]}. Trabajos de Estadistica Y de Investigacion Operativa Volume 31 Issue 1. Springer – Verlag, pp. 489–490 (ісп.)

[7] Bernardo, Smith(1994). Bayesian Theory. Chichester, England: John Wiley & Sons, ISBN 0-471-92416-4, p. 23 (англ.)

[FOOTNOTEGelmanCarlinSternRubin20046—8-8] а ^б Gelman та ін., 2004, с. 6—8.

[9] Bernardo, Degroot, Lindley (September 1983). “Proceedings of the Second Valencia International Meeting”. Bayesian Statistics 2. Amsterdam: Elsevier Science Publishers B.V, ISBN 0-444-87746-0, pp. 167–168 (англ.)

[FOOTNOTEGelmanCarlinSternRubin2004121—125-10] Gelman та ін., 2004, с. 121—125.

[diaconis-11] а ^б Diaconis, Freedman (1980). “Finite exchangeable sequences”. Annals of Probability, pp. 745–747 (англ.)

[12] Bernardo, Degroot, Lindley (September 1983). “Proceedings of the Second Valencia International Meeting”. Bayesian Statistics 2. Amsterdam: Elsevier Science Publishers B.V, ISBN 0-444-87746-0, pp. 371–372 (англ.)

[FOOTNOTEGelmanCarlinSternRubin2004120—121-13] Gelman та ін., 2004, с. 120—121.

[box-14] а ^б ^в Box G. E. P., Tiao G. C. (1965). "Multiparameter problem from a bayesian point of view". Multiparameter Problems From A Bayesian Point of View Volume 36 Number 5. New York City: John Wiley & Sons, ISBN 0-471-57428-7 (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Баєсове ієрархічне моделювання

Зміст

Філософія

Теорема Баєса