Баєсове висновування: відмінності між версіями

[перевірена версія]

← Попереднє редагування Наступне редагування →

Вилучено вміст Додано вміст

Лінійно

Версія за 00:17, 28 травня 2017

Ба́єсове висно́вування (англ. Bayesian inference) — це метод статистичного висновування, у якому для уточнення ймовірності гіпотези при отриманні додаткових свідчень^[en] або інформації використовується правило Баєса. Баєсове висновування є важливим прийомом у статистиці, особливо в математичній. Баєсове уточнення є особливо важливим у динамічному аналізі послідовностей даних. Баєсове висновування знайшло застосування в широкому діапазоні галузей, включно із наукою, інженерією, філософією, медициною, спортом та правом. У філософії теорії рішень баєсове висновування тісно пов'язано із суб'єктивною ймовірністю, що часто називають «баєсовою ймовірністю».

Введення до правила Баєса

Докладніше: Правило Баєса

Див. також: Баєсова ймовірність

Формальне

Баєсове висновування виводить апостеріорну ймовірність як логічний наслідок двох передумов, апріорної ймовірності та «функції правдоподібності», що виведено зі статистичної моделі спостережуваних даних. Баєсове висновування обчислює апостеріорну ймовірність відповідно до теореми Баєса:

P(H\mid E)={\frac {P(E\mid H)\cdot P(H)}{P(E)}}

де

$\textstyle \mid$ позначає «подія за умови» (таким чином, $\textstyle (A\mid B)$ означає A за умови B).
$\textstyle H$ означає будь-яку гіпотезу (англ. hypothesis), на чию ймовірність можуть вплинути дані^[en] (що називаються нижче свідченням). Часто існують конкуруючі гіпотези, і задача полягає у визначенні того, яка з них є найімовірнішою.
свідчення (англ. evidence) $\textstyle E$ відповідає новим даним, що не використовувалися при обчисленні апріорної ймовірності.
$\textstyle P(H)$ , апріорна ймовірність, є оцінкою ймовірності гіпотези $\textstyle H$ до спостереження даних $\textstyle E$ , поточного свідчення.
$\textstyle P(H\mid E)$ , апостеріорна ймовірність, є ймовірністю $\textstyle H$ за умови $\textstyle E$ , тобто, після спостереження $\textstyle E$ . Вона є тим, що ми хочемо знати: ймовірністю гіпотези за умови отриманого свідчення.
$\textstyle P(E\mid H)$ є ймовірністю спостереження $\textstyle E$ за умови $\textstyle H$ . Як функція від $\textstyle E$ при незмінній $\textstyle H$ , це є правдоподібністю — вона вказує на сумісність свідчення з даною гіпотезою. Функція правдоподібності є функцією від свідчення, $\textstyle E$ , тоді як апостеріорна ймовірність є функцією від гіпотези, $\textstyle H$ .
$\textstyle P(E)$ іноді називають відособленою правдоподібністю, або «свідченням моделі». Цей множник є однаковим для всіх можливих гіпотез, що розглядаються (що очевидно з того факту, що гіпотеза $\textstyle H$ ніде не з'являється в цьому позначенні, на відміну від усіх інших множників), тож цей множник не входить до визначення відносних ймовірностей різних гіпотез.

Для різних значень $\textstyle H$ на значення $\textstyle P(H\mid E)$ впливають лише множники $\textstyle P(H)$ та $\textstyle P(E\mid H)$ , обидва в чисельнику, — апостеріорна ймовірність гіпотези є пропорційною її апріорній ймовірності (притаманній їй вірогідності) та новоотриманій правдоподібності (її сумісності з новим спостереженим свідченням).

Правило Баєса також може бути записано наступним чином:

P(H\mid E)={\frac {P(E\mid H)}{P(E)}}\cdot P(H)

де множник $\textstyle {\frac {P(E\mid H)}{P(E)}}$ можна інтерпретувати як вплив $E$ на ймовірність $H$ .

Неформальне

Якщо свідчення не збігається з гіпотезою, то гіпотезу має бути відкинуто. Але якщо гіпотеза є вкрай малоймовірною а пріорі, необхідно все одно відкинути її, навіть якщо здається, що свідчення їй відповідає. Наприклад, якщо хтось не знає, чи новонароджене немовля за сусідніми дверима є хлопчиком чи дівчинкою, то колір прикрас на ліжечку перед дверима може підтримувати одну гіпотезу статі чи іншу; але якщо перед тими дверима замість ліжечка виявиться собача будка, то апостеріорна ймовірність того, що сусідська сім'я народила собаку, залишається низькою, незважаючи на це «свідчення», оскільки апріорне переконання в такій гіпотезі вже було надзвичайно низьким.

Відтак, критична суть баєсового висновування полягає в тім, що воно забезпечує принциповий шлях об'єднання нового свідчення з попередніми переконаннями шляхом застосування правила Баєса. (Порівняйте це із частотним висновуванням, що покладається лише на свідчення в цілому, без посилання на апріорні переконання.)

До того ж, баєсове висновування може застосовуватися ітеративно: після спостереження певного свідчення отримана апостеріорна ймовірність може потім трактуватися як апріорна ймовірність, і нова апостеріорна ймовірність обчислюватися з нового спостереження. Це дозволяє застосовувати баєсові принципи до різних видів свідчень, розглядаючи їх як всі одночасно, так і протягом часу. Ця процедура називається «баєсовим уточненням».

Альтернативи баєсовому уточненню

Баєсове уточнення широко застосовується та є обчислювально зручним. Однак, це не єдине правило уточнення, що може вважатися раціональним.

Ян Хакінг^[en] зауважив, що традиційні аргументи голландської системи ставок^[en] не визначали використання саме баєсового уточнення: вони залишили відкритою можливість, що не-баєсові правила уточнення можуть обходити голландську систему ставок. Хакінг написав:^[1]

Й ані аргумент голландської системи ставок, ані жоден інший в арсеналі доказів ймовірнісних аксіом персоналістів не тягне за собою динамічного припущення. Жоден не тягне за собою баєсовизму. Тому персоналістові потрібно, щоби динамічне припущення було баєсовим. Це є правда, що в послідовності персоналіст може відмовитися від байєсової моделі навчання на досвіді. Сіль може втратити свій смак.

Оригінальний текст (англ.)

And neither the Dutch book argument, nor any other in the personalist arsenal of proofs of the probability axioms, entails the dynamic assumption. Not one entails Bayesianism. So the personalist requires the dynamic assumption to be Bayesian. It is true that in consistency a personalist could abandon the Bayesian model of learning from experience. Salt could lose its savour.

Дійсно, існують не-баєсові правила уточнення, що також обходять голландську систему ставок (як обговорюється в літературі про «кінематику ймовірностей») після публікації правила Річарда Джефрі^[en], що застосовує правило Баєса до випадку, коли свідченню самому встановлюється ймовірність.^[2] Додаткові гіпотези, необхідні для однозначної вимоги баєсового уточнення, було визнано значними, складними та незадовільними.^[3]

Формальний опис баєсового висновування

Позначення

$x$ , точка даних у загальному сенсі. Фактично це може бути вектор^[en] значень.
$\theta$ , параметр розподілу точки даних, тобто, $x\sim p(x\mid \theta )$ . Фактично це може бути вектор^[en] параметрів.
$\alpha$ , гіперпараметр● параметра, тобто, $\theta \sim p(\theta \mid \alpha )$ . Фактично це може бути вектор^[en] гіперпараметрів.
$\mathbf {X}$ , набір $n$ спостережуваних точок даних, тобто, $x_{1},\ldots ,x_{n}$ .
${\tilde {x}}$ , нова точка даних, чий розподіл потрібно передбачити.

Баєсове висновування

Апріорний розподіл — це розподіл параметру (параметрів) до будь-якого спостереження даних, тобто $p(\theta \mid \alpha )$ .
Визначити апріорний розподіл може бути не так легко. У даному випадку ми можемо скористатися апріорним розподілом Джеффріса^[en], щоби отримати апостеріорний розподіл перед уточненням його подальшими спостереженнями.

Вибірковий розподіл — це розподіл спостережуваних даних в залежності від його параметрів, тобто, $p(\mathbf {X} \mid \theta )$ . Його також називають функцією правдоподібності (англ. likelihood function), особливо коли розглядають його як функцію від параметру (параметрів), що іноді записується як $\operatorname {L} (\theta \mid \mathbf {X} )=p(\mathbf {X} \mid \theta )$ .
Відособлена правдоподібність (що іноді також називають свідченням) — це розподіл спостережуваних даних, відособлений за параметром (параметрами), тобто, $p(\mathbf {X} \mid \alpha )=\int _{\theta }p(\mathbf {X} \mid \theta )p(\theta \mid \alpha )\operatorname {d} \!\theta$ .
Апостеріорний розподіл — це розподіл параметру (параметрів) після взяття до уваги спостережуваних даних. Він визначається за правилом Баєса, що формує серцевину баєсового висновування:

p(\theta \mid \mathbf {X} ,\alpha )={\frac {p(\mathbf {X} \mid \theta )p(\theta \mid \alpha )}{p(\mathbf {X} \mid \alpha )}}\propto p(\mathbf {X} \mid \theta )p(\theta \mid \alpha )

Зауважте, що словами це виражається як «апостеріорне є пропорційним апріорному, помноженому на правдоподібність», або іноді як «апостеріорне = правдоподібність на апріорне, відносно свідчення».

Баєсове передбачування

Апостеріорний передбачуваний розподіл^[en] — це розподіл нової точки даних, відособлений за апостеріорним:

p({\tilde {x}}\mid \mathbf {X} ,\alpha )=\int _{\theta }p({\tilde {x}}\mid \theta )p(\theta \mid \mathbf {X} ,\alpha )\operatorname {d} \!\theta

Апріорний передбачуваний розподіл^[en] — це розподіл нової точки даних, відособлений за апріорним:

p({\tilde {x}}\mid \alpha )=\int _{\theta }p({\tilde {x}}\mid \theta )p(\theta \mid \alpha )\operatorname {d} \!\theta

Баєсова теорія передбачає використання апостеріорного передбачуваного розподілу для передбачувального висновування^[en], тобто, для передбачування розподілу ймовірностей нової, ще не спостережуваної точки даних. Тобто, замість фіксованої точки, як передбачення повертається розподіл ймовірностей над можливими точками. Лише в цьому випадку є повний апостеріорний розподіл параметру (параметрів), що використовуються. Для порівняння, передбачування у частотній статистиці часто полягає у знаходженні оптимальної точкової оцінки параметру (параметрів) — наприклад, методом максимальної правдоподібності або оцінки апостеріорного максимуму — і наступному підставленні цієї оцінки до формули розподілу точки даних. Це має той недолік, що воно не враховує жодної невизначеності у значенні параметру, і відтак недооцінюватиме дисперсію передбачуваного розподілу.

(У деяких випадках частотна статистика може обходити цю проблему. Наприклад, коли довірчі та передбачувані інтервали^[en] у частотній статистиці будуються з нормального розподілу з невідомим середнім значенням та дисперсією, вони будуються з використанням t-розподілу Стьюдента. Це дає правильну оцінку дисперсії завдяки тому факту, що (1) середнє значення випадкових величин із нормальним розподілом також має нормальний розподіл; (2) передбачуваний розподіл точки даних з нормальним розподілом та невідомими середнім значенням та дисперсією при використанні спряжених● або неінформативних апріорних розподілів має t-розподіл Стьюдента. Однак, у баєсовій статистиці апостеріорний передбачуваний розподіл може завжди визначатися точно — чи, принаймні, з довільним рівнем точності, при застосуванні числових методів.)

Зауважте, що обидва типи передбачуваних розподілів мають вигляд складного розподілу ймовірності^[en] (так само, як і відособлена правдоподібність). Справді, якщо апріорний розподіл є спряженим апріорним розподілом●, і, отже, апріорний та апостеріорний розподіли походять із одного сімейства, то можна легко переконатися, що як апріорний, так і апостеріорний передбачувані розподіли також походять з одного й того ж сімейства складних розподілів. Різниця лише в тому, що апостеріорний передбачуваний розподіл використовує уточнені значення гіперпараметрів (застосовуючи баєсові правила уточнення, наведені у статті про спряжений апріорний розподіл●), тоді як апріорний передбачуваний розподіл використовує значення гіперпараметрів, що фігурують в апріорному розподілі.

Висновування над взаємовиключними вичерпними можливими значеннями

Якщо свідчення використовується для одночасного уточнення переконань над набором взаємовиключних вичерпних можливих значень, то баєсове висновування можна розглядати як таке, що діє над розподілом цих переконань у цілому.

Загальне формулювання

Припустімо, що процес породжує незалежні однаково розподілені події (англ. events) $E_{n}$ , але розподіл ймовірностей є невідомим. Нехай простір подій $\Omega$ представляє поточний стан переконань для цього процесу. Кожну модель представляють подією $M_{m}$ . Для визначення моделей вказують умовні ймовірності $P(E_{n}\mid M_{m})$ . $P(M_{m})$ є мірою переконання в $M_{m}$ . Перед першим кроком висновування $\{P(M_{m})\}$ є набором початкових апріорних ймовірностей. Вони повинні в сумі давати 1, а в іншому можуть бути довільними.

Припустімо, що ми проспостерігали, що процес породив $\textstyle E\in \{E_{n}\}$ . Для кожної $M\in \{M_{m}\}$ апріорна $P(M)$ уточнюється до апостеріорної $P(M\mid E)$ . З теореми Баєса:^[4]

P(M\mid E)={\frac {P(E\mid M)}{\sum _{m}{P(E\mid M_{m})P(M_{m})}}}\cdot P(M)

Після спостереження подальших свідчень цю процедуру може бути повторено.

Кілька спостережень

Для послідовності незалежних однаково розподілених спостережень $\mathbf {E} =(e_{1},\dots ,e_{n})$ за допомогою індукції може бути показано, що повторне застосування наведеного вище еквівалентне

P(M\mid \mathbf {E} )={\frac {P(\mathbf {E} \mid M)}{\sum _{m}{P(\mathbf {E} \mid M_{m})P(M_{m})}}}\cdot P(M)

де

P(\mathbf {E} \mid M)=\prod _{k}{P(e_{k}\mid M)}.

Параметричне формулювання

При параметризації простору моделей переконання в усіх моделях можуть уточнюватися за один крок. Розподіл переконань над простором моделей може розглядатися як розподіл переконань над простором параметрів. Розподіли в цьому розділі виражаються як безперервні, представлені густинами імовірності, як це й є у звичайній ситуації. Тим не менше, ця методика є так само застосовною й до дискретних розподілів.

Нехай вектор $\mathbf {\theta }$ охоплює простір параметрів. Нехай початковим апріорним розподілом над $\mathbf {\theta }$ буде $p(\mathbf {\theta } \mid \mathbf {\alpha } )$ , де $\mathbf {\alpha }$ є набором параметрів самого апріорного розподілу, або гіперпараметрів●. Нехай $\mathbf {E} =(e_{1},\dots ,e_{n})$ буде послідовністю незалежних однаково розподілених спостережень подій, де всі $e_{i}$ розподілено як $p(e\mid \mathbf {\theta } )$ для деякого $\mathbf {\theta }$ . Для отримання апостеріорного розподілу над $\mathbf {\theta }$ застосовується теорема Баєса:

{\begin{aligned}p(\mathbf {\theta } \mid \mathbf {E} ,\mathbf {\alpha } )&={\frac {p(\mathbf {E} \mid \mathbf {\theta } ,\mathbf {\alpha } )}{p(\mathbf {E} \mid \mathbf {\alpha } )}}\cdot p(\mathbf {\theta } \mid \mathbf {\alpha } )\\&={\frac {p(\mathbf {E} \mid \mathbf {\theta } ,\mathbf {\alpha } )}{\int _{\mathbf {\theta } }p(\mathbf {E} |\mathbf {\theta } ,\mathbf {\alpha } )p(\mathbf {\theta } \mid \mathbf {\alpha } )\,d\mathbf {\theta } }}\cdot p(\mathbf {\theta } \mid \mathbf {\alpha } )\end{aligned}}

де

p(\mathbf {E} \mid \mathbf {\theta } ,\mathbf {\alpha } )=\prod _{k}p(e_{k}\mid \mathbf {\theta } )

Математичні властивості

Інтерпретація множника

$\textstyle {\frac {P(E\mid M)}{P(E)}}>1\Rightarrow \textstyle P(E\mid M)>P(E)$ . Тобто, якщо модель була вірною, то свідчення буде правдоподібнішим, ніж передбачено поточним станом переконання. Зворотня ситуація веде до зменшення переконання. Якщо переконання не змінюється, то $\textstyle {\frac {P(E\mid M)}{P(E)}}=1\Rightarrow \textstyle P(E\mid M)=P(E)$ . Тобто, свідчення не залежить від моделі. Якщо модель була вірною, то свідчення буде правдоподібним рівно настільки, наскільки передбачено поточним станом переконання.

Правило Кромвеля

Детальніші відомості з цієї теми ви можете знайти в статті Правило Кромвеля^[en].

Якщо $P(M)=0$ , то $P(M\mid E)=0$ . Якщо $P(M)=1$ , то $P(M|E)=1$ . Це може інтерпретуватися так, що категоричні переконання є нечутливими до контр-доказів.

Перше випливає безпосередньо з теореми Баєса. Друге може бути виведено застосуванням першого правила до події «не $M$ » замість « $M$ », що дасть «якщо $1-P(M)=0$ , то $1-P(M\mid E)=0$ », з чого результат випливатиме безпосередньо.

Асимптотична поведінка апостеріорного розподілу

Розгляньмо поведінку розподілу переконання у процесі його уточнення велику кількість разів незалежними однаково розподіленими пробами. Для достатньо гарних апріорних ймовірностей теорема Бернштайна — фон Мізеса^[de] дає те, що на границі нескінченних проб апостеріорний розподіл збігається до нормального, незалежно від початкового апріорного розподілу, за певних умов, вперше окреслених та суворо доведених Джозефом Дубом^[en] 1948 року, а саме, якщо випадкова змінна у міркуваннях має скінченний імовірнісний простір. Загальніші результати було отримано пізніше статистиком Девідом Фрідменом^[en], який опублікував у двох плідних дослідницьких працях^{[джерело?]} 1963 та 1965 років, коли і за яких обставин гарантується асимптотична поведінка апостеріорного розподілу. Його праця 1963 року, як і праця Дуба 1949 року, розглядає скінченний випадок, і приходить до задовільного результату. Однак, якщо випадкова змінна має нескінченний, але зліченний імовірнісний простір (тобто, відповідає гральній кістці з нескінченною кількістю граней), то праця 1965 року демонструє, що для щільної підмножини апріорних ймовірностей теорема Бернштайна — фон Мізеса^[de] не є застосовною. В цьому випадку асимптотичного збігання майже напевно немає. Пізніше у 1980-х та 1990-х роках Девід Фрідмен^[en] та Персі Діаконіс^[en] продовжили працювати над випадком нескінченних зліченних імовірнісних просторів.^[5] Підсумовуючи, для подолання впливу початкового вибору може бути замало проб, і, особливо у випадку великих (але скінченних) систем, збігання може бути дуже повільним.

Спряжені апріорні розподіли

Детальніші відомості з цієї теми ви можете знайти в статті Спряжений апріорний розподіл●.

У параметризованій формі часто вважається, що апріорний розподіл належить до сімейства розподілів, що називається спряженими апріорними розподілами●. Корисність спряженого апріорного розподілу полягає в тому, що відповідний апостеріорний розподіл належатиме до того ж сімейства, і його обчислення може бути виражено у замкненому вигляді●.

Оцінки параметрів та передбачень

Часто потрібно використовувати апостеріорний розподіл для оцінювання параметру або змінної. Кілька методів баєсового оцінювання вибирають вимірювання центральної тенденції з апостеріорного розподілу.

Для одновимірних задач існує унікальна медіана для практичних безперервних задач. Апостеріорна медіана є привабливою як робастний оцінювач.^[6]

Якщо для апостеріорного розподілу існує скінченне середнє значення, тоді апостеріорне середнє є методом оцінювання.^{[джерело?]}

{\tilde {\theta }}=\operatorname {E} [\theta ]=\int _{\theta }\theta \,p(\theta \mid \mathbf {X} ,\alpha )\,d\theta

Взяття значення із найбільшою ймовірністю визначає оцінки апостеріорного максимуму (англ. maximum a posteriori, MAP):^{[джерело?]}

\{\theta _{\text{MAP}}\}\subset \arg \max _{\theta }p(\theta \mid \mathbf {X} ,\alpha ).

Існують приклади, у яких не досягається жодного максимуму, і в такому випадку множина оцінок апостеріорного максимуму є порожньою.

Існують інші методи оцінювання, що мінімізують апостеріорний ризик (очікувані апостеріорні втрати) відносно функції втрат, і вони представляють інтерес для статистичної теорії рішень з використанням вибіркового розподілу («частотна статистика»).^{[джерело?]}

Апостеріорний передбачуваний розподіл^[en] нового спостереження ${\tilde {x}}$ (що є незалежним від попередніх спостережень) визначається як^{[джерело?]}

p({\tilde {x}}|\mathbf {X} ,\alpha )=\int _{\theta }p({\tilde {x}},\theta \mid \mathbf {X} ,\alpha )\,d\theta =\int _{\theta }p({\tilde {x}}\mid \theta )p(\theta \mid \mathbf {X} ,\alpha )\,d\theta .

Приклади

Ймовірність гіпотези

Припустімо, є дві повні чаші коржиків. Чаша № 1 містить 10 шоколадних коржиків, і 30 звичайних, тоді як чаша № 2 містить по 20 кожних. Наш друг Петро обирає випадкову чашу, й витягає з неї випадковий коржик. Ми можемо припустити, що немає жодних підстав вважати, що Петро віддає перевагу якійсь із чаш, і аналогічно з коржиками. Коржик виявляється звичайним. Якою є ймовірність того, що Петро взяв його з чаші № 1?

Інтуїтивно здається ясним, що відповідь повинна бути більшою за половину, оскільки простих коржиків у чаші № 1 більше. А точну відповідь дає теорема Баєса. Нехай $H_{1}$ відповідає чаші № 1, а $H_{2}$ — чаші № 2. Дано, що з точки зору Петра вони є ідентичними, отже, $P(H_{1})=P(H_{2})$ , і в сумі вони повинні давати 1, тому обидва дорівнюють 0.5. Подія $E$ є спостереженням звичайного коржика. Із вмісту чаш нам відомо, що $P(E\mid H_{1})=30/40=0.75$ і $P(E\mid H_{2})=20/40=0.5$ . Формула Баєса відтак дає

{\begin{aligned}P(H_{1}\mid E)&={\frac {P(E\mid H_{1})\,P(H_{1})}{P(E\mid H_{1})\,P(H_{1})\;+\;P(E\mid H_{2})\,P(H_{2})}}\\\\\ &={\frac {0.75\times 0.5}{0.75\times 0.5+0.5\times 0.5}}\\\\\ &=0.6\end{aligned}}

До того, як ми побачили коржик, ймовірність, яку ми призначили виборові Петром чаші № 1, була апріорною ймовірністю, $P(H_{1})$ , що дорівнювала 0.5. Після спостереження того коржика ми мусимо переглянути ймовірність до $P(H_{1}\mid E)$ , що дорівнює 0.6.

Здійснення передбачування

Археолог працює на розкопках поселення припусти́мо середньовічного періоду, між XI та XVI століттями. Тим не менш, залишається не ясним, коли саме протягом цього періоду поселення було заселеним. Знайдено уламки кераміки, деякі з них глазуровані, і деякі розписні. Очікується, що якщо поселення було заселеним протягом раннього середньовіччя, то 1% кераміки буде глазурованим, і 50% його поверхні буде розписано, тоді як якщо воно було заселеним пізнього середньовіччя, то 81% буде глазурованим, і 5% його площі буде розписано. Наскільки впевненим може бути археолог у даті заселення у процесі викопування уламків?

Необхідно обчислювати міру переконання у безперервній змінній $C$ (століття), маючи дискретний набір подій $\{GD,G{\bar {D}},{\bar {G}}D,{\bar {G}}{\bar {D}}\}$ (де $G$ — глазурованість, а $D$ — наявність розпису) як свідчення. Припускаючи лінійну зміну глазурованості та розпису протягом часу та те, що ці змінні є незалежними,

P(E=GD\mid C=c)=(0.01+{\frac {0.81-0.01}{16-11}}(c-11))(0.5-{\frac {0.5-0.05}{16-11}}(c-11))

P(E=G{\bar {D}}\mid C=c)=(0.01+{\frac {0.81-0.01}{16-11}}(c-11))(0.5+{\frac {0.5-0.05}{16-11}}(c-11))

P(E={\bar {G}}D\mid C=c)=((1-0.01)-{\frac {0.81-0.01}{16-11}}(c-11))(0.5-{\frac {0.5-0.05}{16-11}}(c-11))

P(E={\bar {G}}{\bar {D}}\mid C=c)=((1-0.01)-{\frac {0.81-0.01}{16-11}}(c-11))(0.5+{\frac {0.5-0.05}{16-11}}(c-11))

Припустімо, що апріорним є неперервний рівномірний розподіл $\textstyle f_{C}(c)=0.2$ , і що проби є незалежними однаково розподіленими. Коли виявляється новий уламок типу $e$ , застосовується теорема Баєса для уточнення міри переконання у кожному $c$ :

$f_{C}(c\mid E=e)={\frac {P(E=e\mid C=c)}{P(E=e)}}f_{C}(c)={\frac {P(E=e\mid C=c)}{\int _{11}^{16}{P(E=e\mid C=c)f_{C}(c)dc}}}f_{C}(c)$

На графіку зображено комп'ютерну симуляцію зміни переконання в процесі викопування 50 уламків. У цій симуляції поселення було заселено близько 1420 року, або $c=15.2$ . За допомогою обчислення площі під відповідною частиною цього графіка для 50 проб археолог може стверджувати, що практично немає шансів, що це поселення було заселеним в XI та XII століттях, близько 1% складає шанс того, що воно було заселеним протягом XIII століття, 63% шансів протягом XIV століття та 36% протягом XV століття. Зауважте, що теорема Бернштайна — фон Мізеса^[de] стверджує, що тут має місце асимптотичне збігання до «справжнього» розподілу, оскільки ймовірнісний простір, що відповідає дискретному наборові подій $\{GD,G{\bar {D}},{\bar {G}}D,{\bar {G}}{\bar {D}}\}$ , є скінченним (див. вище розділ про асимптотичну поведінку апостеріорного розподілу).

У частотній статистиці та теорії рішень

Обґрунтування використання баєсового висновування у теорії рішень було зроблено Абрахамом Валдом●, який довів, що будь-яка унікальна баєсова процедура є прийнятною^[en]. І навпаки, кожна прийнятна^[en] статистична процедура є або баєсовою процедурою, або границею баєсових процедур.^[7]

Валд охарактеризував прийнятні процедури як баєсові процедури (та границі баєсових процедур), зробивши баєсів формалізм центральною методикою в таких галузях частотного висновування як оцінювання параметрів, перевірка гіпотез та обчислення довірчих інтервалів.^[8]^[9]^[10] Наприклад:

За певних умов усі прийнятні процедури є або баєсовими процедурами, або границями баєсових процедур (у різних сенсах). Ці видатні результати, принаймні у їх оригінальному вигляді, належать по суті Валдові. Вони корисні, бо властивість баєсовості аналізувати простіше, ніж властивість прийнятності.^[7]

Оригінальний текст (англ.)

Under some conditions, all admissible procedures are either Bayes procedures or limits of Bayes procedures (in various senses). These remarkable results, at least in their original form, are due essentially to Wald. They are useful because the property of being Bayes is easier to analyze than admissibility.

У теорії рішень досить загальний метод доведення прийнятності полягає у демонстрації того, що процедура є унікальним баєсовим розв'язком.^[11]

Оригінальний текст (англ.)

In decision theory, a quite general method for proving admissibility consists in exhibiting a procedure as a unique Bayes solution.

У перших розділах цієї праці апріорні розподіли зі скінченним носієм та відповідні баєсові процедури застосовувалися для запроваджування деяких з головних теорем, пов'язаних із порівнянням експериментів. Баєсові процедури по відношенню до загальніших апріорних розподілів відіграли дуже важливу роль у розвитку статистики, включно з її асимптотичною теорією.^[12]

Оригінальний текст (англ.)

In the first chapters of this work, prior distributions with finite support and the corresponding Bayes procedures were used to establish some of the main theorems relating to the comparison of experiments. Bayes procedures with respect to more general prior distributions have played a very important role in the development of statistics, including its asymptotic theory.

Існує багато задач, де побіжний погляд на апостеріорні розподіли, за підхожих апріорних, негайно дає цікаву інформацію. Цього методу також важко уникнути у послідовному аналізі.^[12]

Оригінальний текст (англ.)

There are many problems where a glance at posterior distributions, for suitable priors, yields immediately interesting information. Also, this technique can hardly be avoided in sequential analysis.

Корисним фактом є те, що баєсове правило рішення, отримане взяттям належного апріорного розподілу над усім простором параметрів, мусить бути прийнятним^[13]

Оригінальний текст (англ.)

A useful fact is that any Bayes decision rule obtained by taking a proper prior over the whole parameter space must be admissible

Важливим напрямком дослідження у розвитку ідей прийнятності був напрямок звичайних процедур теорії вибірок, і було отримано багато цікавих результатів.^[14]

Оригінальний текст (англ.)

An important area of investigation in the development of admissibility ideas has been that of conventional sampling-theory procedures, and many interesting results have been obtained.

Вибір моделі

Див. баєсів вибір моделі

Застосування

Комп'ютерні застосування

Баєсове висновування має застосування в штучному інтелекті та експертних системах. Методики баєсового висновування були фундаментальною частиною методик комп'ютеризованого розпізнавання образів з кінця 1950-х років. Також існує й постійно зростає зв'язок між баєсовими методами та методиками Монте Карло на основі симуляцій, оскільки складні моделі не можуть оброблюватися у замкненому вигляді баєсовим аналізом, тоді як структури графічних моделей можуть уможливлювати ефективні симуляційні алгоритми, такі як вибірка за Ґіббсом^[en] та інші схеми алгоритму Метрополіса — Гастінгса●.^[15] З цих причин баєсове висновування нещодавно завоювало популярність серед спільноти філогенетиків; деякі із застосувань дозволяють одночасно оцінювати багато демографічних та еволюційних параметрів.

Що стосується статистичної класифікації, то баєсове висновування застосовувалося у нещодавні роки для розробки алгоритмів ідентифікації спаму електронної пошти^[en]. Застосунки, що використовують баєсове висновування для фільтрування спаму, включають CRM114^[en], DSPAM^[ru], Bogofilter^[en], SpamAssassin, Mozilla, XEAMS та інші. Класифікація спаму розглядається докладніше у статті про наївний баєсів класифікатор.

Індуктивне висновування Соломонова^[en] є теорією передбачування, що ґрунтується на спостереженнях; наприклад, передбачення наступного символу ґрунтується на заданій серії символів. Єдиним припущенням є те, що середовище слідує якомусь невідомому, проте обчислюваному розподілу ймовірності. Це є формальна індуктивна структура, що поєднує в собі два гарно вивчені принципи індуктивного висновування: баєсову статистику та бритву Оккама.^[16] Універсальна апріорна ймовірність Соломонова будь-якого префіксу p обчислюваної послідовності x — це сума ймовірностей усіх програм (для універсального комп'ютера), що обчислюють щось, що починається з p. При заданому деякому p та будь-якому обчислюваному але невідомому розподілі ймовірності, з якого вибирається x, для передбачування ще небачених частин x оптимальним чином можуть використовуватися універсальний апріорний розподіл та теорема Баєса.^[17]^[18]

У залі суду

Баєсове висновування може застосовуватися присяжними, щоби послідовно накопичувати свідчення за та проти підсудного, і бачити, чи вони в сукупності відповідають їхньому особистому порогові «поза розумним сумнівом».^[19]^[20]^[21] Теорема Баєса застосовується послідовно до усіх представлених свідчень так, що апостеріорне переконання з однієї стадії стає апріорним для наступної. Баєсів підхід корисний тим, що він надає присяжному неупереджений раціональний механізм для поєднання свідчень. Пояснювати теорему Баєса присяжним може бути доречно у формі шансів, оскільки шанси парі● є зрозумілими ширшому загалові, аніж імовірності. Крім того, для присяжного може бути зрозумілішим логарифмічний підхід^[en], що замінює множення додаванням.

Якщо в існуванні злочину сумніву немає, а є лише в особі обвинуваченого, то радять як апріорний використовувати рівномірний розподіл над визначеною сукупністю.^[22] Наприклад, якщо 1 000 людей могли скоїти цей злочин, то апріорною ймовірністю провинності буде 1/1000.

Використання теореми Баєса присяжними є дискусійним. У Сполученому Королівстві кваліфікований свідок^[en] захисту пояснив теорему Баєса суду присяжних у справі Р проти Адамса^[en]. Суд присяжних визнав відповідача винним, але на це рішення було подано апеляцію на тій підставі, що не було надано засобів акумулювання свідчень для тих присяжних, що не хотіли використовувати теорему Баєса. Апеляційний суд залишив вирок у силі, але також зробив висновок, що

Залучення до кримінального процесу теореми Баєса, або іншого подібного методу, занурює присяжних у невідповідні та непотрібні сфери теорії та складності, відхиляючи їх від притаманної їм задачі"

Оригінальний текст (англ.)

To introduce Bayes' Theorem, or any similar method, into a criminal trial plunges the jury into inappropriate and unnecessary realms of theory and complexity, deflecting them from their proper task.

Гарднер-Медвін^[23] переконує, що критерієм, на якому повинен базуватися вирок у кримінальній справі, є не ймовірність провини, а швидше ймовірність свідчення за умови невинності відповідача (близька до частотного p-значення). Він стверджує, що якщо апостеріорна ймовірність провини має обчислюватися за теоремою Баєса, то мусить бути відомою апріорна ймовірність провини. А вона залежатиме від сфери злочину, яка є незвичним свідченням для розгляду в кримінальній справі. Розгляньмо наступні три твердження:

А Відомі факти та показання свідків могли би виникнути, якби відповідач був винним

Б Відомі факти та показання свідків могли би виникнути, якби відповідач був невинним

В Відповідач є винним.

Гарднер-Медвін стверджує, що для винесення обвинувального вироку суд присяжних повинен переконатися як в А, так і в не-Б. З А та не-Б випливає істинність В, але зворотнє не є вірним. Існує можливість, що вірними є Б та В, але в цьому випадку він стверджує, що суд присяжних повинен винести виправдувальний вирок, незважаючи на те, що вони знають, що дозволяють звільнитися деяким винним людям. Див. також парадокс Ліндлі●.

Баєсова епістемологія

Баєсова епістемологія є рухом, що виступає за баєсове висновування як засіб обґрунтування правил індуктивної логіки.

Карл Поппер та Девід Міллер^[en] відкинули нібито раціональність баєсовизму, тобто використання правила Баєса для здійснення епістемологічного висновування:^[24] він схильний до того ж порочного кола, що й будь-яка інша виправдовувальна^[en] епістемологія, оскільки спирається на те, що намагається виправдати. Відповідно до цієї точки зору, раціональна інтерпретація баєсового висновування бачитиме його лише як імовірнісну версію фальсифікаціонізму, заперечуючи переконання, поширене серед баєсовистів, що висока правдоподібність, досягнута послідовністю баєсових уточнень, доводитиме гіпотезу поза розумним сумнівом, чи навіть із правдоподібністю, більшою за 0.

Інші

Науковий метод іноді інтерпретується як застосування баєсового висновування. З цієї точки зору правило Баєса скеровує (або повинне скеровувати) уточнення ймовірностей гіпотези в залежності від нових спостережень або експериментів.
Теорія баєсового пошуку^[en] застосовується для пошуку загублених об'єктів.
Баєсове висновування у філогенетиці^[en]
Баєсів інструмент для аналізу метилювання^[en]
Баєсові підходи до функції мозку^[en] досліджують мозок як баєсів механізм.
Баєсове висновування в екологічних дослідженнях^[25]^[26]

Баєс та баєсове висновування

Задачею, розглянутою Баєсом у Пропозиції 9 його «Есе щодо розв'язання задачі у Доктрині шансів^[en]», є апостеріорний розподіл параметру a (доля успішних спроб) біноміального розподілу.^{[джерело?]}

Історія

Детальніші відомості з цієї теми ви можете знайти в статті Історія статистики § Баєсова статистика^[en].

Термін баєсів стосується Томаса Баєса (1702–1761), який довів окремий випадок того, що зараз називають теоремою Баєса. Однак, впровадив загальну версію цієї теореми та застосовував її для підходу до задач небесної механіки, медичної статистики, надійності^[en] та юриспруденції П'єр-Симон Лаплас (1749–1827).^[27] Раннє баєсове висновування, що використовувало рівномірний апріорний розподіл згідно лапласового принципу недостатнього обґрунтування^[en], називалося «зворотною ймовірністю^[en]» (оскільки воно здійснює зворотне висновування від спостережень до параметрів, або від наслідків до причин^[28]). Після 1920-х років «зворотну ймовірність» було значною мірою витіснено набором методів, що стали називати частотною статистикою.^[28]

У XX столітті ідеї Лапласа отримали подальший розвиток у двох різних напрямках, давши початок об'єктивній та суб'єктивній течіям у баєсовій практиці. В об'єктивній, або «неінформативній» течії статистичний аналіз покладається лише на передбачувану модель, аналізовані дані^[29] та метод призначення апріорного розподілу, що відрізняється від одного об'єктивного баєсового висновування до іншого. У суб'єктивній, або «інформативній» течії визначення апріорного розподілу залежить від переконання (тобто тверджень, для дії на яких готується аналіз), що може підсумовувати інформацію від експертів, попередніх досліджень тощо.

У 1980-х роках відбувся різкий ріст досліджень та застосувань баєсових методів, обумовлений головним чином відкриттям методів Монте-Карло марковських ланцюгів, що усунули багато обчислювальних проблем, і ростом зацікавлення у нестандартних, складних застосуваннях.^[30] Незважаючи на зростання баєсових досліджень, більшість викладання студентам і досі ґрунтується на частотній статистиці.^[31] Тим не менше, баєсові методи є широко визнаними та застосовуваними, як наприклад у галузі машинного навчання.^[32]

Див. також

Теорема Баєса
Bayesian Analysis^[en], журнал ISBA
Баєсове ієрархічне моделювання●
Баєсова ймовірність
Індуктивна ймовірність^[en]
Баєсів аналіз виживаності^[en]
Міжнародне співтовариство баєсового аналізу^[en] (англ. International Society for Bayesian Analysis, ISBA)
Апріорний розподіл Джеффріса^[en]
Баєсів структурний часовий ряд●
Парадокс Монті Голла

Примітки

↑ Hacking (1967, Section 3, p. 316), Hacking (1988, p. 124) (англ.)
↑ Bayes' Theorem (Stanford Encyclopedia of Philosophy). Plato.stanford.edu. Процитовано 5 січня 2014. (англ.)
↑ van Fraassen, B.^[en] (1989) Laws and Symmetry, Oxford University Press. ISBN 0-19-824860-1 (англ.)
↑ Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). Bayesian Data Analysis (вид. III). CRC Press. ISBN 978-1439840955. (англ.)
↑ Larry Wasserman et alia, JASA 2000. (англ.)
↑ Sen, Pranab K.^[en]; Keating, J. P.; Mason, R. L. (1993). Pitman's measure of closeness: A comparison of statistical estimators. Philadelphia: SIAM. (англ.)
↑ ^а ^б Bickel & Doksum (2001, p. 32) (англ.)
↑ Kiefer, J.^[en]; Schwartz, R. (1965). Admissible Bayes Character of T²-, R²-, and Other Fully Invariant Tests for Multivariate Normal Problems. Annals of Mathematical Statistics. 36: 747—770. doi:10.1214/aoms/1177700051. (англ.)
↑ Schwartz, R. (1969). Invariant Proper Bayes Tests for Exponential Families. Annals of Mathematical Statistics. 40: 270—283. doi:10.1214/aoms/1177697822. (англ.)
↑ Hwang, J. T. & Casella, George (1982). Minimax Confidence Sets for the Mean of a Multivariate Normal Distribution. Annals of Statistics. 10: 868—881. doi:10.1214/aos/1176345877. (англ.)
↑ Lehmann, Erich^[en] (1986). Testing Statistical Hypotheses (вид. Second). (див. с. 309 розділу 6.7 «Admissibilty» та с. 17–18 розділу 1.8 «Complete Classes» (англ.)
↑ ^а ^б Le Cam, Lucien^[en] (1986). Asymptotic Methods in Statistical Decision Theory. Springer-Verlag. ISBN 0-387-96307-3. (з розділу «12 Posterior Distributions and Bayes Solutions», с. 324) (англ.)
↑ Cox, D. R.^[en]; Hinkley, D.V (1974). Theoretical Statistics. Chapman and Hall. ISBN 0-04-121537-0. с. 432 (англ.)
↑ Cox, D. R.^[en]; Hinkley, D. V. (1974). Theoretical Statistics. Chapman and Hall. ISBN 0-04-121537-0. с. 433 (англ.)
↑ Jim Albert (2009). Bayesian Computation with R, Second edition. New York, Dordrecht, etc.: Springer. ISBN 978-0-387-92297-3. (англ.)
↑ Samuel Rathmanner та Marcus Hutter^[en]. «A Philosophical Treatise of Universal Induction». Entropy, 13(6):1076-1136, 2011. (англ.)
↑ «The Problem of Old Evidence», in § 5 of «On Universal Prediction and Bayesian Confirmation», M. Hutter — Theoretical Computer Science, 2007 — Elsevier (англ.)
↑ «Raymond J. Solomonoff», Peter Gacs, Paul M. B. Vitanyi, 2011 cs.bu.edu (англ.)
↑ Dawid, A. P. та Mortera, J. (1996) «Coherent Analysis of Forensic Identification Evidence». Journal of the Royal Statistical Society^[en], Series B, 58, 425–443. (англ.)
↑ Foreman, L. A.; Smith, A. F. M., та Evett, I. W. (1997). «Bayesian analysis of deoxyribonucleic acid profiling data in forensic identification applications (with discussion)». Journal of the Royal Statistical Society, Series A, 160, 429–469. (англ.)
↑ Robertson, B. та Vignaux, G. A. (1995) Interpreting Evidence: Evaluating Forensic Science in the Courtroom. John Wiley and Sons. Chichester. ISBN 978-0-471-96026-3 (англ.)
↑ Dawid, A. P. (2001) «Bayes' Theorem and Weighing Evidence by Juries» (англ.)
↑ Gardner-Medwin, A. (2005) «What Probability Should the Jury Address?». Significance^[en], 2 (1), March 2005 (англ.)
↑ David Miller: Critical Rationalism (англ.)
↑ Ogle, Kiona; Tucker, Colin; Cable, Jessica M. (1 січня 2014). Beyond simple linear mixing models: process-based isotope partitioning of ecological processes. Ecological Applications (англ.). 24 (1): 181—195. doi:10.1890/1051-0761-24.1.181. ISSN 1939-5582. (англ.)
↑ Evaristo, Jaivime; McDonnell, Jeffrey J.; Scholl, Martha A.; Bruijnzeel, L. Adrian; Chun, Kwok P. (1 січня 2016). Insights into plant water uptake from xylem-water isotope measurements in two tropical catchments with contrasting moisture conditions. Hydrological Processes (англ.): n/a–n/a. doi:10.1002/hyp.10841. ISSN 1099-1085. (англ.)
↑ Stigler, Stephen M. (1986). Chapter 3. The History of Statistics. Harvard University Press. (англ.)
↑ ^а ^б Fienberg, Stephen E. (2006). When did Bayesian Inference Become ‘Bayesian’? (PDF). Bayesian Analysis. 1 (1): 1–40 [p. 5]. doi:10.1214/06-ba101. Архів оригіналу (PDF) за 10 вересня 2014. {{cite journal}}: Cite має пустий невідомий параметр: |df= (довідка) (англ.)
↑ Bernardo, José-Miguel^[en] (2005). Reference analysis. Handbook of statistics. Т. 25. с. 17—90. (англ.)
↑ Wolpert, R. L. (2004). A Conversation with James O. Berger. Statistical Science. 19 (1): 205—218. doi:10.1214/088342304000000053. MR 2082155. (англ.)
↑ Bernardo José M.^[en] (2006). A Bayesian mathematical statistics primer (PDF). ICOTS-7. (англ.)
↑ Bishop, C. M. (2007). Pattern Recognition and Machine Learning. New York: Springer. ISBN 0387310738. (англ.)

Джерела

Aster, Richard; Borchers, Brian, та Thurber, Clifford (2012). Parameter Estimation and Inverse Problems, Second Edition, Elsevier. ISBN 0123850487, ISBN 978-0123850485 (англ.)
Bickel, Peter J. & Doksum, Kjell A. (2001). Mathematical Statistics, Volume 1: Basic and Selected Topics (вид. Second (передрук 2007)). Pearson Prentice–Hall. ISBN 0-13-850363-X. (англ.)
Box, G. E. P.^[en] та Tiao, G. C. (1973) Bayesian Inference in Statistical Analysis, Wiley, ISBN 0-471-57428-7 (англ.)
Edwards, Ward (1968). Conservatism in Human Information Processing. У Kleinmuntz, B. (ред.). Formal Representation of Human Judgment. Wiley. (англ.)
Edwards, Ward (1982). Conservatism in Human Information Processing (excerpted). У Daniel Kahneman, Paul Slovic^[en] та Amos Tversky^[en] (ред.). Judgment under uncertainty: Heuristics and biases. Cambridge University Press. (англ.)
Renganathan, Vinaitheerthan (31 березня 2016). Overview of Frequentist and Bayesian approach to Survival Analysis. Applied Medical Informatics (англ.). 38 (1): 25—38. ISSN 2067-7855. (англ.)
Jaynes E. T.^[en] (2003) Probability Theory: The Logic of Science, CUP. ISBN 978-0-521-59271-0 (Link to Fragmentary Edition of March 1996). (англ.)
Howson, C.^[en]; Urbach, P. (2005). Scientific Reasoning: the Bayesian Approach (вид. 3rd). Open Court Publishing Company^[en]. ISBN 978-0-8126-9578-6. {{cite book}}: Проігноровано невідомий параметр |last-author-amp= (довідка) (англ.)
Phillips, L. D.; Edwards, Ward (October 2008). Chapter 6: Conservatism in a Simple Probability Inference Task (Journal of Experimental Psychology (1966) 72: 346-354). У Jie W. Weiss; David J. Weiss (ред.). A Science of Decision Making:The Legacy of Ward Edwards. Oxford University Press. с. 536. ISBN 978-0-19-532298-9. (англ.)

Література

Повний звіт з історії баєсової статистики та дебати з частотними підходами читайте у Vallverdu, Jordi (2016). Bayesians Versus Frequentists A Philosophical Debate on Statistical Reasoning. New York: Springer. ISBN 978-3-662-48638-2. (англ.)

Початкова

Наступні книги перелічено у порядку зростання статистичної складності:

Stone, JV (2013), «Bayes’ Rule: A Tutorial Introduction to Bayesian Analysis», Download first chapter here, Sebtel Press, England. (англ.)
Dennis V. Lindley^[en] (2013). Understanding Uncertainty, Revised Edition (вид. 2nd). John Wiley. ISBN 978-1-118-65012-7. (англ.)
Colin Howson^[en]; Peter Urbach (2005). Scientific Reasoning: The Bayesian Approach (вид. 3rd). Open Court Publishing Company^[en]. ISBN 978-0-8126-9578-6. (англ.)
Berry, Donald A. (1996). Statistics: A Bayesian Perspective. Duxbury. ISBN 0-534-23476-3. (англ.)
Morris H. DeGroot^[en]; Mark J. Schervish (2002). Probability and Statistics (вид. third). Addison-Wesley. ISBN 978-0-201-52488-8. {{cite book}}: Проігноровано невідомий параметр |last-author-amp= (довідка) (англ.)
Bolstad, William M. (2007) Introduction to Bayesian Statistics: Second Edition, John Wiley ISBN 0-471-27020-2 (англ.)
Winkler, Robert L (2003). Introduction to Bayesian Inference and Decision (вид. 2nd). Probabilistic. ISBN 0-9647938-4-9. (англ.) Оновлений класичний підручник. Чітко представлено баєсову теорію.
Lee, Peter M. Bayesian Statistics: An Introduction. Fourth Edition (2012), John Wiley ISBN 978-1-1183-3257-3 (англ.)
Carlin, Bradley P. & Louis, Thomas A. (2008). Bayesian Methods for Data Analysis, Third Edition. Boca Raton, FL: Chapman and Hall/CRC. ISBN 1-58488-697-8. (англ.)
Gelman, Andrew^[en]; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B.^[en] (2013). Bayesian Data Analysis, Third Edition. Chapman and Hall/CRC. ISBN 978-1-4398-4095-5. (англ.)

Середнього рівня або просунута

Berger, James O^[en] (1985). Statistical Decision Theory and Bayesian Analysis. Springer Series in Statistics (вид. Second). Springer-Verlag. ISBN 0-387-96098-8. (англ.)
Bernardo, José M.^[en]; Smith, Adrian F. M.^[en] (1994). Bayesian Theory. Wiley. (англ.)
DeGroot, Morris H.^[en], Optimal Statistical Decisions. Wiley Classics Library. 2004. (початково опублікована (1970) McGraw-Hill.) ISBN 0-471-68029-X. (англ.)
Schervish, Mark J. (1995). Theory of statistics. Springer-Verlag. ISBN 0-387-94546-6. (англ.)
Jaynes, E. T. (1998) Probability Theory: The Logic of Science. (англ.)
O'Hagan, A. та Forster, J. (2003) Kendall's Advanced Theory of Statistics, Volume 2B: Bayesian Inference. Arnold, New York. ISBN 0-340-52922-9. (англ.)
Robert, Christian P (2001). The Bayesian Choice – A Decision-Theoretic Motivation (вид. second). Springer. ISBN 0-387-94296-3. (англ.)
Glenn Shafer^[en] та Pearl, Judea, eds. (1988) Probabilistic Reasoning in Intelligent Systems, San Mateo, CA: Morgan Kaufmann. (англ.)
Pierre Bessière et al. (2013), «Bayesian Programming», CRC Press. ISBN 9781439880326 (англ.)
Francisco J. Samaniego (2010), "A Comparison of the Bayesian and Frequentist Approaches to Estimation" Springer, New York, ISBN 978-1-4419-5940-9 (англ.)

Посилання

Hazewinkel, Michiel, ред. (2001), Bayesian approach to statistical problems, Математична енциклопедія, Springer, ISBN 978-1-55608-010-4 (англ.)
Bayesian Statistics зі Scholarpedia. (англ.)
Введення до баєсової ймовірності від Лондонського університету королеви Марії (англ.)
Mathematical Notes on Bayesian Statistics and Markov Chain Monte Carlo (англ.)
Баєсова рекомендована бібліографія, категоризована та анотована Томом Ґриффітсом (англ.)
A. Hajek та S. Hartmann: Bayesian Epistemology, у: J. Dancy et al. (eds.), A Companion to Epistemology. Oxford: Blackwell 2010, 93-106. (англ.)
S. Hartmann та J. Sprenger: Bayesian Epistemology, у: S. Bernecker and D. Pritchard (eds.), Routledge Companion to Epistemology. London: Routledge 2010, 609–620. (англ.)
Stanford Encyclopedia of Philosophy: «Inductive Logic» (англ.)
Bayesian Confirmation Theory (англ.)
What Is Bayesian Learning? (англ.)

[1] Hacking (1967, Section 3, p. 316), Hacking (1988, p. 124) (англ.)

[2] Bayes' Theorem (Stanford Encyclopedia of Philosophy). Plato.stanford.edu. Процитовано 5 січня 2014. (англ.)

[3] van Fraassen, B.^[en] (1989) Laws and Symmetry, Oxford University Press. ISBN 0-19-824860-1 (англ.)

[4] Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). Bayesian Data Analysis (вид. III). CRC Press. ISBN 978-1439840955. (англ.)

[5] Larry Wasserman et alia, JASA 2000. (англ.)

[6] Sen, Pranab K.^[en]; Keating, J. P.; Mason, R. L. (1993). Pitman's measure of closeness: A comparison of statistical estimators. Philadelphia: SIAM. (англ.)

[Bickel_&_Doksum_2001,_page_32-7] а ^б Bickel & Doksum (2001, p. 32) (англ.)

[8] Kiefer, J.^[en]; Schwartz, R. (1965). Admissible Bayes Character of T²-, R²-, and Other Fully Invariant Tests for Multivariate Normal Problems. Annals of Mathematical Statistics. 36: 747—770. doi:10.1214/aoms/1177700051. (англ.)

[9] Schwartz, R. (1969). Invariant Proper Bayes Tests for Exponential Families. Annals of Mathematical Statistics. 40: 270—283. doi:10.1214/aoms/1177697822. (англ.)

[10] Hwang, J. T. & Casella, George (1982). Minimax Confidence Sets for the Mean of a Multivariate Normal Distribution. Annals of Statistics. 10: 868—881. doi:10.1214/aos/1176345877. (англ.)

[11] Lehmann, Erich^[en] (1986). Testing Statistical Hypotheses (вид. Second). (див. с. 309 розділу 6.7 «Admissibilty» та с. 17–18 розділу 1.8 «Complete Classes» (англ.)

[Le_Cam-12] а ^б Le Cam, Lucien^[en] (1986). Asymptotic Methods in Statistical Decision Theory. Springer-Verlag. ISBN 0-387-96307-3. (з розділу «12 Posterior Distributions and Bayes Solutions», с. 324) (англ.)

[13] Cox, D. R.^[en]; Hinkley, D.V (1974). Theoretical Statistics. Chapman and Hall. ISBN 0-04-121537-0. с. 432 (англ.)

[14] Cox, D. R.^[en]; Hinkley, D. V. (1974). Theoretical Statistics. Chapman and Hall. ISBN 0-04-121537-0. с. 433 (англ.)

[15] Jim Albert (2009). Bayesian Computation with R, Second edition. New York, Dordrecht, etc.: Springer. ISBN 978-0-387-92297-3. (англ.)

[16] Samuel Rathmanner та Marcus Hutter^[en]. «A Philosophical Treatise of Universal Induction». Entropy, 13(6):1076-1136, 2011. (англ.)

[17] «The Problem of Old Evidence», in § 5 of «On Universal Prediction and Bayesian Confirmation», M. Hutter — Theoretical Computer Science, 2007 — Elsevier (англ.)

[18] «Raymond J. Solomonoff», Peter Gacs, Paul M. B. Vitanyi, 2011 cs.bu.edu (англ.)

[19] Dawid, A. P. та Mortera, J. (1996) «Coherent Analysis of Forensic Identification Evidence». Journal of the Royal Statistical Society^[en], Series B, 58, 425–443. (англ.)

[20] Foreman, L. A.; Smith, A. F. M., та Evett, I. W. (1997). «Bayesian analysis of deoxyribonucleic acid profiling data in forensic identification applications (with discussion)». Journal of the Royal Statistical Society, Series A, 160, 429–469. (англ.)

[21] Robertson, B. та Vignaux, G. A. (1995) Interpreting Evidence: Evaluating Forensic Science in the Courtroom. John Wiley and Sons. Chichester. ISBN 978-0-471-96026-3 (англ.)

[22] Dawid, A. P. (2001) «Bayes' Theorem and Weighing Evidence by Juries» (англ.)

[23] Gardner-Medwin, A. (2005) «What Probability Should the Jury Address?». Significance^[en], 2 (1), March 2005 (англ.)

[24] David Miller: Critical Rationalism (англ.)

[25] Ogle, Kiona; Tucker, Colin; Cable, Jessica M. (1 січня 2014). Beyond simple linear mixing models: process-based isotope partitioning of ecological processes. Ecological Applications (англ.). 24 (1): 181—195. doi:10.1890/1051-0761-24.1.181. ISSN 1939-5582. (англ.)

[26] Evaristo, Jaivime; McDonnell, Jeffrey J.; Scholl, Martha A.; Bruijnzeel, L. Adrian; Chun, Kwok P. (1 січня 2016). Insights into plant water uptake from xylem-water isotope measurements in two tropical catchments with contrasting moisture conditions. Hydrological Processes (англ.): n/a–n/a. doi:10.1002/hyp.10841. ISSN 1099-1085. (англ.)

[27] Stigler, Stephen M. (1986). Chapter 3. The History of Statistics. Harvard University Press. (англ.)

[Fienberg2006-28] а ^б Fienberg, Stephen E. (2006). When did Bayesian Inference Become ‘Bayesian’? (PDF). Bayesian Analysis. 1 (1): 1–40 [p. 5]. doi:10.1214/06-ba101. Архів оригіналу (PDF) за 10 вересня 2014. {{cite journal}}: Cite має пустий невідомий параметр: |df= (довідка) (англ.)

[Bernardo-29] Bernardo, José-Miguel^[en] (2005). Reference analysis. Handbook of statistics. Т. 25. с. 17—90. (англ.)

[30] Wolpert, R. L. (2004). A Conversation with James O. Berger. Statistical Science. 19 (1): 205—218. doi:10.1214/088342304000000053. MR 2082155. (англ.)

[31] Bernardo José M.^[en] (2006). A Bayesian mathematical statistics primer (PDF). ICOTS-7. (англ.)

[ReferenceA-32] Bishop, C. M. (2007). Pattern Recognition and Machine Learning. New York: Springer. ISBN 0387310738. (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

@@ Рядок 1: / Рядок 1: @@
 {{Баєсова статистика}}
-'''Ба́єсове висно́вування''' ({{lang-en|Bayesian inference}})&nbsp;— це метод [[Статистичне висновування|статистичного висновування]], у якому для уточнення ймовірності гіпотези при отриманні свідчень використовується [[правило Баєса]]. Баєсове висновування є важливим прийомом у [[Статистика|статистиці]], особливо в [[Математична статистика|математичній]]. Баєсове уточнення є особливо важливим у [[Послідовний аналіз|динамічному аналізі послідовностей даних]]. Баєсове висновування знайшло застосування в широкому діапазоні галузей, включно із [[Наука|наукою]], [[Інженерія|інженерією]], [[Філософія|філософією]], [[Медицина|медициною]] та [[право]]м. У філософії [[Теорія рішень|теорії рішень]] баєсове висновування тісно пов'язано із суб'єктивною ймовірністю, що часто називають «[[Баєсова ймовірність|баєсовою ймовірністю]]». Баєсова ймовірність забезпечує [[Раціональність|раціональний]] метод уточнення переконань ({{lang-en|beliefs}}).{{Citation needed|дата=січень 2015}}
+'''Ба́єсове висно́вування''' ({{lang-en|Bayesian inference}})&nbsp;— це метод [[Статистичне висновування|статистичного висновування]], у якому для уточнення ймовірності гіпотези при отриманні додаткових {{нп|Свідчення|свідчень||Evidence}} або [[Інформація|інформації]] використовується [[правило Баєса]]. Баєсове висновування є важливим прийомом у [[Статистика|статистиці]], особливо в [[Математична статистика|математичній]]. Баєсове уточнення є особливо важливим у [[Послідовний аналіз|динамічному аналізі послідовностей даних]]. Баєсове висновування знайшло застосування в широкому діапазоні галузей, включно із [[Наука|наукою]], [[Інженерія|інженерією]], [[Філософія|філософією]], [[Медицина|медициною]], [[спорт]]ом та [[право]]м. У філософії [[Теорія рішень|теорії рішень]] баєсове висновування тісно пов'язано із суб'єктивною ймовірністю, що часто називають «[[Баєсова ймовірність|баєсовою ймовірністю]]».
 <!--
 ; тим не менш, не-баєсові правила уточнення є сумісними з раціональністю, згідно філософів {{Не перекладено|Ян Хакінг|Яна Хакінга||Ian Hacking}} та {{Не перекладено|Бас ван Фрасен|Баса ван Фрасена||Bas van Fraassen}}.<ref>Stanford encyclopedia of philosophy; Bayesian Epistemology; http://plato.stanford.edu/entries/epistemology-bayesian</ref><ref>Gillies, Donald (2000); «Philosophical Theories of Probability»; Routledge; Chapter 4 «The subjective theory»</ref>
@@ Рядок 7: / Рядок 7: @@
 == Введення до правила Баєса ==
+[[Файл:Bayes theorem visualisation.svg|lang=uk|thumb|300px|Геометричне унаочнення теореми Баєса. Значення ''w'', ''x'', ''y'' та ''z'' у таблиці задають відносну вагу кожних з відповідних умов та випадків. Фігури позначають клітинки таблиці, залучені до кожного з показників, де ймовірність є затемненою часткою фігури. Це показує, що ''P'' (''A'' <nowiki>|</nowiki>''B'' )&nbsp;''P'' (''B'' ) = ''P'' (''B'' <nowiki>|</nowiki>''A'' )&nbsp;''P'' (''A'' ), тобто,  ''P'' (''A'' <nowiki>|</nowiki>''B'' ) = {{ндріб|''P'' (''B'' <nowiki>|</nowiki>''A'' )&nbsp;''P'' (''A'' )|''P'' (''B'' )}}. Схожі міркування може бути застосовано, щоби показати, що ''P'' (Ā<nowiki>|</nowiki>''B'' ) = {{ндріб|''P'' (''B'' <nowiki>|</nowiki>Ā) ''P'' (Ā)|''P'' (''B'' )}} і так далі.]]
 {{Головна|Правило Баєса}}
 {{Див. також|Баєсова ймовірність}}
@@ Рядок 15: / Рядок 16: @@
 : <math>P(H\mid E) = \frac{P(E\mid H) \cdot P(H)}{P(E)}</math>
 де
-* <math>\textstyle \mid </math> позначає [[Умовна ймовірність|умовну ймовірність]]; конкретніше, воно означає ''за умови''.
+* <math>\textstyle \mid </math> позначає «подія [[Умовна ймовірність|за умови]]» (таким чином, <math>\textstyle (A\mid B) </math> означає ''A за умови B'').
-* <math>\textstyle H</math> означає будь-яку ''гіпотезу'' ({{lang-en|hypothesis}}), на чию ймовірність можуть вплинути {{Не перекладено|Експериментальні дані|дані||Experimental data}} (що називаються нижче ''свідченням''). Часто існують конкуруючі гіпотези, з яких обирають найімовірнішу.
+* <math>\textstyle H</math> означає будь-яку ''гіпотезу'' ({{lang-en|hypothesis}}), на чию ймовірність можуть вплинути {{Не перекладено|Експериментальні дані|дані||Experimental data}} (що називаються нижче ''свідченням''). Часто існують конкуруючі гіпотези, і задача полягає у визначенні того, яка з них є найімовірнішою.
 * ''свідчення'' ({{lang-en|evidence}}) <math>\textstyle E</math> відповідає новим даним, що не використовувалися при обчисленні апріорної ймовірності.
-* <math>\textstyle P(H)</math>, ''[[апріорна ймовірність]]'', є ймовірністю <math>\textstyle H</math> ''до'' спостереження <math>\textstyle E</math>. Вона позначає попередню оцінку ймовірності того, що гіпотеза є вірною, до отримання поточного свідчення.
+* <math>\textstyle P(H)</math>, ''[[апріорна ймовірність]]'', є оцінкою ймовірності гіпотези <math>\textstyle H</math> ''до'' спостереження даних <math>\textstyle E</math>, поточного свідчення.
-* <math>\textstyle P(H\mid E)</math>, ''[[апостеріорна ймовірність]]'', є ймовірністю <math>\textstyle H</math> ''за умови'' <math>\textstyle E</math>, тобто, ''після'' спостереження <math>\textstyle E</math>. Вона говорить нам те, що ми хочемо знати: ймовірність гіпотези ''за умови'' отриманого свідчення.
+* <math>\textstyle P(H\mid E)</math>, ''[[апостеріорна ймовірність]]'', є ймовірністю <math>\textstyle H</math> ''за умови'' <math>\textstyle E</math>, тобто, ''після'' спостереження <math>\textstyle E</math>. Вона є тим, що ми хочемо знати: ймовірністю гіпотези ''за умови'' отриманого свідчення.
-* <math>\textstyle P(E\mid H)</math> є ймовірністю спостереження <math>\textstyle E</math> ''за умови'' <math>\textstyle H</math>. Як функція від <math>\textstyle E</math> при незмінній <math>\textstyle H</math>, це є ''[[Функція правдоподібності|правдоподібністю]]''. Функцію правдоподібності '''не''' можна плутати з <math>\textstyle P(H\mid E)</math>, як функцією від <math>\textstyle H</math>, а не від <math>\textstyle E</math>. Вона вказує на сумісність свідчення із даною гіпотезою.
+* <math>\textstyle P(E\mid H)</math> є ймовірністю спостереження <math>\textstyle E</math> ''за умови'' <math>\textstyle H</math>. Як функція від <math>\textstyle E</math> при незмінній <math>\textstyle H</math>, це є ''[[Функція правдоподібності|правдоподібністю]]''&nbsp;— вона вказує на сумісність свідчення з даною гіпотезою. Функція правдоподібності є функцією від свідчення, <math>\textstyle E</math>, тоді як апостеріорна ймовірність є функцією від гіпотези, <math>\textstyle H</math>.
-* <math>\textstyle P(E)</math> іноді називають [[Відособлена правдоподібність|відособленою правдоподібністю]], або «свідченням моделі». Цей множник є однаковим для всіх можливих гіпотез, що розглядаються. (Це можна бачити з того факту, що гіпотеза <math>\textstyle H</math> ніде не з'являється у цьому позначенні, на відміну від усіх інших множників.) Це означає, що цей множник не входить до визначення відносних ймовірностей різних гіпотез.
+* <math>\textstyle P(E)</math> іноді називають [[Відособлена правдоподібність|відособленою правдоподібністю]], або «свідченням моделі». Цей множник є однаковим для всіх можливих гіпотез, що розглядаються (що очевидно з того факту, що гіпотеза <math>\textstyle H</math> ніде не з'являється в цьому позначенні, на відміну від усіх інших множників), тож цей множник не входить до визначення відносних ймовірностей різних гіпотез.
-Зауважте, що для різних значень <math>\textstyle H</math> на значення <math>\textstyle P(H\mid E)</math> впливають лише множники <math>\textstyle P(H)</math> та <math>\textstyle P(E\mid H)</math>. Оскільки обидва ці множники знаходяться у чисельнику, то апостеріорна ймовірність є пропорційною до них обох. Іншими словами:
+Для різних значень <math>\textstyle H</math> на значення <math>\textstyle P(H\mid E)</math> впливають лише множники <math>\textstyle P(H)</math> та <math>\textstyle P(E\mid H)</math>, обидва в чисельнику,&nbsp;— апостеріорна ймовірність гіпотези є пропорційною її апріорній ймовірності (притаманній їй вірогідності) та новоотриманій правдоподібності (її сумісності з новим спостереженим свідченням).
+Правило Баєса також може бути записано наступним чином:
-* (точніше) ''Апостеріорна ймовірність гіпотези визначається комбінацією властивої гіпотезі ймовірності (апріорної) та сумісності спостережуваного свідчення із гіпотезою (правдоподібності).''
-* (стисліше) ''Апостеріорне пропорційне апріорному, помноженому на правдоподібність.''
-Зауважте, що правило Баєса може бути записано наступним чином:
 : <math>P(H\mid E) = \frac{P(E\mid H)}{P(E)} \cdot P(H)</math>
-де множник <math>\textstyle \frac{P(E\mid H)}{P(E)}</math> представляє вплив <math>E</math> на ймовірність <math>H</math>.
+де множник <math>\textstyle \frac{P(E\mid H)}{P(E)}</math> можна інтерпретувати як вплив <math>E</math> на ймовірність <math>H</math>.
 === Неформальне ===
-Якщо свідчення не збігається з гіпотезою, то гіпотезу має бути відкинуто. Але якщо гіпотеза є вкрай малоймовірною а пріорі, необхідно все одно відкинути її, навіть якщо здається, що свідчення їй відповідає.
+Якщо свідчення не збігається з гіпотезою, то гіпотезу має бути відкинуто. Але якщо гіпотеза є вкрай малоймовірною а пріорі, необхідно все одно відкинути її, навіть якщо здається, що свідчення їй відповідає. Наприклад, якщо хтось не знає, чи новонароджене немовля за сусідніми дверима є хлопчиком чи дівчинкою, то колір прикрас на ліжечку перед дверима може підтримувати одну гіпотезу статі чи іншу; але якщо перед тими дверима замість ліжечка виявиться собача будка, то апостеріорна ймовірність того, що сусідська сім'я народила собаку, залишається низькою, незважаючи на це «свідчення», оскільки апріорне переконання в такій гіпотезі вже було надзвичайно низьким.
+Відтак, критична суть баєсового висновування полягає в тім, що воно забезпечує принциповий шлях об'єднання нового свідчення з попередніми переконаннями шляхом застосування правила Баєса. (Порівняйте це із [[Частотне висновування|частотним висновуванням]], що покладається лише на свідчення в цілому, без посилання на апріорні переконання.)
-Наприклад, уявімо, що я маю різноманітні гіпотези про природу новонародженої дитини мого друга, включно з:
-* <math>\textstyle H_1</math>: це дитя є темноволосим хлопчиком.
-* <math>\textstyle H_2</math>: це дитя є білявою дівчинкою.
-* <math>\textstyle H_3</math>: це дитя є собакою.
-Тепер розгляньмо два сценарії:
-# Я отримав свідчення у вигляді зображення білявої дівчинки. Я вважаю, що це свідчення підтримує гіпотезу <math>\textstyle H_2</math>, і виступає проти гіпотез <math>\textstyle H_1</math> та <math>\textstyle H_3</math>.
-# Я отримав свідчення у вигляді зображення цуценяти. Хоча це свідчення, розглянуте у відриві, і підтримує <math>\textstyle H_3</math>, та моє попереднє переконання у цій гіпотезі (що людина може народити собаку) є надзвичайно малим, тому її апостеріорна ймовірність є все одно малою.
-Відтак, критична суть баєсового висновування полягає в тім, що воно забезпечує принциповий шлях об'єднання нового свідчення з попередніми переконаннями шляхом застосування правила Баєса. (Порівняйте це із [[Частотне висновування|частотним висновуванням]], що покладається лише на свідчення в цілому, без посилання на апріорні переконання.) До того ж, баєсове висновування може застосовуватися ітеративно: після спостереження певного свідчення отримана апостеріорна ймовірність може потім трактуватися як апріорна ймовірність, і нова апостеріорна ймовірність обчислюватися з нового спостереження. Це дозволяє застосовувати баєсові принципи до різних видів свідчень, розглядаючи їх як всі одночасно, так і протягом часу. Ця процедура називається «баєсовим уточненням».
+До того ж, баєсове висновування може застосовуватися ітеративно: після спостереження певного свідчення отримана апостеріорна ймовірність може потім трактуватися як апріорна ймовірність, і нова апостеріорна ймовірність обчислюватися з нового спостереження. Це дозволяє застосовувати баєсові принципи до різних видів свідчень, розглядаючи їх як всі одночасно, так і протягом часу. Ця процедура називається «баєсовим уточненням».
+=== Альтернативи баєсовому уточненню ===
-=== Баєсове уточнення ===
-Баєсове уточнення широко застосовується та є обчислювально зручним. Однак, це не єдине правило уточнення, що може вважатися «раціональним».
+Баєсове уточнення широко застосовується та є обчислювально зручним. Однак, це не єдине правило уточнення, що може вважатися раціональним.
 {{Не перекладено|Ян Хакінг|||Ian Hacking}} зауважив, що традиційні аргументи {{Не перекладено|Голландська система ставок|голландської системи ставок||Dutch book}} не визначали використання саме баєсового уточнення: вони залишили відкритою можливість, що не-баєсові правила уточнення можуть обходити голландську систему ставок. Хакінг написав:<ref>
@@ Рядок 60: / Рядок 52: @@
 }}
-Дійсно, існують не-баєсові правила уточнення, що також обходять голландську систему ставок (як обговорюється в літературі про «кінематику ймовірностей» після публікації правила {{Не перекладено|Річард Джефрі|Річарда Джефрі||Richard Jeffrey}}, що застосовує правило Баєса до випадку, коли свідченню самому встановлюється ймовірність.<ref>
+Дійсно, існують не-баєсові правила уточнення, що також обходять голландську систему ставок (як обговорюється в літературі про «кінематику ймовірностей») після публікації правила {{Не перекладено|Річард Джефрі|Річарда Джефрі||Richard Jeffrey}}, що застосовує правило Баєса до випадку, коли свідченню самому встановлюється ймовірність.<ref>
 {{cite web
@@ Рядок 150: / Рядок 142: @@
 === Кілька спостережень ===
-Для набору [[Незалежні однаково розподілені випадкові величини|незалежних однаково розподілених]] спостережень <math>\mathbf{E} = \{e_1, \dots, e_n\}</math> може бути показано, що повторне застосування наведеного вище еквівалентне
+Для послідовності [[Незалежні однаково розподілені випадкові величини|незалежних однаково розподілених]] спостережень <math>\mathbf{E} = (e_1, \dots, e_n)</math> за допомогою [[Математична індукція|індукції]] може бути показано, що повторне застосування наведеного вище еквівалентне
 : <math>P(M \mid \mathbf{E}) = \frac{P(\mathbf{E} \mid M)}{\sum_m {P(\mathbf{E} \mid M_m) P(M_m)}} \cdot P(M)</math>
@@ Рядок 158: / Рядок 150: @@
 : <math>P(\mathbf{E} \mid M) = \prod_k{P(e_k \mid M)}.</math>
-Це може бути застосовано для оптимізації практичних розрахунків. <!-- Може бути інформативніше, якщо запропонувати конкретний приклад: e1/M, e2/M, … може бути показано як .05/4, .061/4, .033/4. Потім показати фактичні розрахунки з використанням цих трьох членів у підсумовуванні. -->
+<!-- Може бути інформативніше, якщо запропонувати конкретний приклад: e1/M, e2/M, … може бути показано як .05/4, .061/4, .033/4. Потім показати фактичні розрахунки з використанням цих трьох членів у підсумовуванні. -->
 === Параметричне формулювання ===
@@ Рядок 164: / Рядок 156: @@
 При параметризації простору моделей переконання в усіх моделях можуть уточнюватися за один крок. Розподіл переконань над простором моделей може розглядатися як розподіл переконань над простором параметрів. [[Розподіл ймовірностей|Розподіли]] в цьому розділі виражаються як безперервні, представлені [[Густина імовірності|густинами імовірності]], як це й є у звичайній ситуації. Тим не менше, ця методика є так само застосовною й до дискретних розподілів.
-Нехай вектор <math>\mathbf{\theta}</math> охоплює простір параметрів. Нехай початковим апріорним розподілом над <math>\mathbf{\theta}</math> буде <math>p(\mathbf{\theta} \mid \mathbf{\alpha})</math>, де <math>\mathbf{\alpha}</math> є набором параметрів самого апріорного розподілу, або ''{{Не перекладено|Гіперпараметр|гіперпараметрів||Hyperparameter}}''. Нехай <math>\mathbf{E} = \{e_1, \dots, e_n\}</math> буде набором [[Незалежні однаково розподілені випадкові величини|незалежних однаково розподілених]] спостережень подій, де всі <math>e_i</math> розподілено як <math>p(e \mid \mathbf{\theta})</math> для деякого <math>\mathbf{\theta}</math>. Для отримання апостеріорного розподілу над <math>\mathbf{\theta}</math> застосовується [[теорема Баєса]]:
+Нехай вектор <math>\mathbf{\theta}</math> охоплює простір параметрів. Нехай початковим апріорним розподілом над <math>\mathbf{\theta}</math> буде <math>p(\mathbf{\theta} \mid \mathbf{\alpha})</math>, де <math>\mathbf{\alpha}</math> є набором параметрів самого апріорного розподілу, або ''{{Не перекладено|Гіперпараметр|гіперпараметрів||Hyperparameter}}''. Нехай <math>\mathbf{E} = (e_1, \dots, e_n)</math> буде послідовністю [[Незалежні однаково розподілені випадкові величини|незалежних однаково розподілених]] спостережень подій, де всі <math>e_i</math> розподілено як <math>p(e \mid \mathbf{\theta})</math> для деякого <math>\mathbf{\theta}</math>. Для отримання апостеріорного розподілу над <math>\mathbf{\theta}</math> застосовується [[теорема Баєса]]:
 : <math>
@@ Рядок 264: / Рядок 256: @@
 Необхідно обчислювати міру переконання у безперервній змінній <math>C</math> (століття), маючи дискретний набір подій <math>\{GD,G \bar D, \bar G D, \bar G \bar D\}</math> (де <math>G</math>&nbsp;— глазурованість, а <math>D</math>&nbsp;— наявність розпису) як свідчення. Припускаючи лінійну зміну глазурованості та розпису протягом часу та те, що ці змінні є незалежними,
-: <math>P(E=GD \mid C=c) = (0.01 + 0.16(c-11))(0.5 - 0.09(c-11))</math>
+: <math>P(E=GD \mid C=c) = (0.01 + \frac{0.81-0.01}{16-11}(c-11))(0.5 - \frac{0.5-0.05}{16-11}(c-11))</math>
-: <math>P(E=G \bar D \mid C=c) = (0.01 + 0.16(c-11))(0.5 + 0.09(c-11))</math>
+: <math>P(E=G \bar D \mid C=c) = (0.01 + \frac{0.81-0.01}{16-11}(c-11))(0.5 + \frac{0.5-0.05}{16-11}(c-11))</math>
-: <math>P(E=\bar G D \mid C=c) = (0.99 - 0.16(c-11))(0.5 - 0.09(c-11))</math>
+: <math>P(E=\bar G D \mid C=c) = ((1-0.01) - \frac{0.81-0.01}{16-11}(c-11))(0.5 - \frac{0.5-0.05}{16-11}(c-11))</math>
-: <math>P(E=\bar G \bar D \mid C=c) = (0.99 - 0.16(c-11))(0.5 + 0.09(c-11))</math>
+: <math>P(E=\bar G \bar D \mid C=c) = ((1-0.01) - \frac{0.81-0.01}{16-11}(c-11))(0.5 + \frac{0.5-0.05}{16-11}(c-11))</math>
 Припустімо, що апріорним є [[неперервний рівномірний розподіл]] <math>\textstyle f_C(c) = 0.2</math>, і що проби є [[Незалежні однаково розподілені випадкові величини|незалежними однаково розподіленими]]. Коли виявляється новий уламок типу <math>e</math>, застосовується теорема Баєса для уточнення міри переконання у кожному <math>c</math>:
@@ Рядок 283: / Рядок 275: @@
 {{cite journal
  |doi=10.1214/aoms/1177700051
- |author={{Не перекладено|Джек Кіфер|Kiefer,&nbsp;J.||Jack Kiefer (statistician)}} та Schwartz,&nbsp;R.
+ |author={{Не перекладено|Джек Кіфер|Kiefer,&nbsp;J.||Jack Kiefer (statistician)}}
+ |author2=Schwartz,&nbsp;R.
  |title=Admissible Bayes Character of T<sup>2</sup>-, R<sup>2</sup>-, and Other Fully Invariant Tests for Multivariate Normal Problems
  |journal=Annals of Mathematical Statistics
@@ Рядок 295: / Рядок 288: @@
 {{cite journal
  |doi= 10.1214/aoms/1177697822
- |author=Schwartz,&nbsp;R.
+ |author=Schwartz, R.
  |title=Invariant Proper Bayes Tests for Exponential Families
  |journal=Annals of Mathematical Statistics
@@ Рядок 307: / Рядок 300: @@
 {{cite journal
  |doi=10.1214/aos/1176345877
- |author=Hwang, J.&nbsp;T. та Casella, George
+ |author1=Hwang, J. T.
+ |author2=Casella, George
+ |lastauthoramp=yes
  |title=Minimax Confidence Sets for the Mean of a Multivariate Normal Distribution
  |journal=Annals of Statistics
@@ Рядок 354: / Рядок 349: @@
 {{cite book
- |author={{Не перекладено|Девід Кокс (статистик)|Cox, D. R.||David R. Cox}} та Hinkley, D.V
+ |author={{Не перекладено|Девід Кокс (статистик)|Cox, D. R.||David R. Cox}}
+ |author2=Hinkley, D.V
  |title=Theoretical Statistics
  |year=1974
@@ Рядок 368: / Рядок 364: @@
 {{cite book
- |author={{Не перекладено|Девід Кокс|Cox, D.&nbsp;R.||David R. Cox}} та Hinkley, D.&nbsp;V.
+ |author={{Не перекладено|Девід Кокс|Cox, D. R.||David R. Cox}}
+ |author2=Hinkley, D. V.
  |title=Theoretical Statistics
  |year=1974
@@ Рядок 400: / Рядок 397: @@
 </ref> З цих причин баєсове висновування нещодавно завоювало популярність серед спільноти [[Філогенетика|філогенетиків]]; деякі із застосувань дозволяють одночасно оцінювати багато демографічних та еволюційних параметрів.
-Що стосується [[Задача класифікації|статистичної класифікації]], то баєсове висновування застосовувалося у нещодавні роки для розробки алгоритмів ідентифікації {{Не перекладено|Спам електронної пошти|спаму електронної пошти||Email spam}}. Застосунки, що використовують баєсове висновування для фільтрування спаму, включають {{Не перекладено|CRM114|||CRM114 (program)}}, {{Не перекладено|DSPAM||ru|DSPAM}}, {{Не перекладено|Bogofilter|||Bogofilter}}, [[SpamAssassin]] та [[Mozilla]]. Класифікація спаму розглядається докладніше у статті про [[Наївний баєсівський класифікатор|наївний баєсів класифікатор]].
+Що стосується [[Задача класифікації|статистичної класифікації]], то баєсове висновування застосовувалося у нещодавні роки для розробки алгоритмів ідентифікації {{Не перекладено|Спам електронної пошти|спаму електронної пошти||Email spam}}. Застосунки, що використовують баєсове висновування для фільтрування спаму, включають {{Не перекладено|CRM114|||CRM114 (program)}}, {{Не перекладено|DSPAM||ru|DSPAM}}, {{Не перекладено|Bogofilter|||Bogofilter}}, [[SpamAssassin]], [[Mozilla]], XEAMS та інші. Класифікація спаму розглядається докладніше у статті про [[Наївний баєсівський класифікатор|наївний баєсів класифікатор]].
 {{Не перекладено|Теорія індуктивного висновування Соломонова|Індуктивне висновування Соломонова||Solomonoff's theory of inductive inference}} є теорією передбачування, що ґрунтується на спостереженнях; наприклад, передбачення наступного символу ґрунтується на заданій серії символів. Єдиним припущенням є те, що середовище слідує якомусь невідомому, проте обчислюваному розподілу ймовірності. Це є формальна індуктивна структура, що поєднує в собі два гарно вивчені принципи індуктивного висновування: баєсову статистику та [[Бритва Оккама|бритву Оккама]].<ref>Samuel Rathmanner та {{Не перекладено|Маркус Хютер|Marcus Hutter||Marcus Hutter}}. «A Philosophical Treatise of Universal Induction». ''Entropy'', 13(6):1076-1136, 2011. {{ref-en}}</ref>
@@ Рядок 439: / Рядок 436: @@
 * {{Не перекладено|Баєсове висновування у філогенетиці|||Bayesian inference in phylogeny}}
 * {{Не перекладено|Баєсів інструмент для аналізу метилювання|||Bayesian tool for methylation analysis}}
+* {{нп|Баєсові підходи до функції мозку|||Bayesian approaches to brain function}} досліджують мозок як баєсів механізм.
+* Баєсове висновування в екологічних дослідженнях<ref>{{Cite journal|last=Ogle|first=Kiona|last2=Tucker|first2=Colin|last3=Cable|first3=Jessica M.|date=2014-01-01|title=Beyond simple linear mixing models: process-based isotope partitioning of ecological processes|url=http://onlinelibrary.wiley.com/doi/10.1890/1051-0761-24.1.181/abstract|journal=Ecological Applications|language=en|volume=24|issue=1|pages=181–195|doi=10.1890/1051-0761-24.1.181|issn=1939-5582}} {{ref-en}}</ref><ref>{{Cite journal|last=Evaristo|first=Jaivime|last2=McDonnell|first2=Jeffrey J.|last3=Scholl|first3=Martha A.|last4=Bruijnzeel|first4=L. Adrian|last5=Chun|first5=Kwok P.|date=2016-01-01|title=Insights into plant water uptake from xylem-water isotope measurements in two tropical catchments with contrasting moisture conditions|url=http://onlinelibrary.wiley.com/doi/10.1002/hyp.10841/abstract|journal=Hydrological Processes|language=en|pages=n/a–n/a|doi=10.1002/hyp.10841|issn=1099-1085}} {{ref-en}}</ref>
 == Баєс та баєсове висновування ==
@@ Рядок 471: / Рядок 470: @@
  |pages=1–40 [p. 5]
  |doi= 10.1214/06-ba101
+ |deadurl=yes
+ |archiveurl=https://web.archive.org/web/20140910070556/http://ba.stat.cmu.edu/journal/2006/vol01/issue01/fienberg.pdf
+ |archivedate=2014-09-10
+ |df=
 }} {{ref-en}}
@@ Рядок 511: / Рядок 514: @@
 </ref> Незважаючи на зростання баєсових досліджень, більшість викладання студентам і досі ґрунтується на частотній статистиці.<ref>
-{{cite paper
+{{cite journal
 <!--
  |authorlink=José-Miguel Bernardo
@@ Рядок 541: / Рядок 544: @@
 * [[Теорема Баєса]]
-* {{Не перекладено|Баєсове ієрархічне моделювання|||Bayesian hierarchical modeling}}
 * {{Не перекладено|Bayesian Analysis|||Bayesian Analysis (journal)}}, журнал ISBA
+* {{Не перекладено|Баєсове ієрархічне моделювання|||Bayesian hierarchical modeling}}
+* [[Баєсова ймовірність]]
 * {{Не перекладено|Індуктивна ймовірність|||Inductive probability}}
+* {{нп|Баєсів аналіз виживаності|||Bayesian survival analysis}}
 * {{Не перекладено|Міжнародне співтовариство баєсового аналізу|||International Society for Bayesian Analysis}} ({{lang-en|International Society for Bayesian Analysis, ISBA}})
 * {{Не перекладено|Апріорний розподіл Джеффріса|||Jeffreys prior}}
+* {{нп|Баєсів структурний часовий ряд|||Bayesian structural time series}}
+* [[Парадокс Монті Голла]]
 == Примітки ==
@@ Рядок 553: / Рядок 560: @@
 * Aster, Richard; Borchers, Brian, та Thurber, Clifford (2012). ''Parameter Estimation and Inverse Problems'', Second Edition, Elsevier. ISBN 0123850487, ISBN 978-0123850485 {{ref-en}}
-* {{Cite book|author=Bickel, Peter J. та Doksum, Kjell A.|title=Mathematical Statistics, Volume 1: Basic and Selected Topics|edition=Second (передрук 2007)|year=2001|publisher=Pearson Prentice–Hall|isbn=0-13-850363-X}} {{ref-en}}
+* {{Cite book|author1=Bickel, Peter J.|author2=Doksum, Kjell A. |lastauthoramp=yes |title=Mathematical Statistics, Volume 1: Basic and Selected Topics|edition=Second (передрук 2007)|year=2001|publisher=Pearson Prentice–Hall|isbn=0-13-850363-X}} {{ref-en}}
 * {{Не перекладено|Джордж Бокс|Box, G.&nbsp;E.&nbsp;P.||George E. P. Box}} та Tiao, G.&nbsp;C. (1973) ''Bayesian Inference in Statistical Analysis'', Wiley, ISBN 0-471-57428-7 {{ref-en}}
 * {{cite book| author=Edwards, Ward| chapter=Conservatism in Human Information Processing|editor=Kleinmuntz, B.| title=Formal Representation of Human Judgment|publisher=Wiley|year=1968}} {{ref-en}}
 * {{cite book| author=Edwards, Ward| chapter=Conservatism in Human Information Processing (excerpted)|editor=[[Деніел Канеман|Daniel Kahneman]], {{Не перекладено|Пол Слович|Paul Slovic||Paul Slovic}} та {{Не перекладено|Амос Тверський|Amos Tversky||Amos Tversky}}| title=Judgment under uncertainty: Heuristics and biases|publisher=Cambridge University Press|year=1982}} {{ref-en}}
+* {{Cite journal|last=Renganathan|first=Vinaitheerthan|date=2016-03-31|title=Overview of Frequentist and Bayesian approach to Survival Analysis|url=http://ami.info.umfcluj.ro/index.php/AMI/article/view/572|journal=Applied Medical Informatics|language=en|volume=38|issue=1|pages=25–38|issn=2067-7855}} {{ref-en}}
 * {{Не перекладено|Едвін Томпсон Джейнс|Jaynes E.&nbsp;T.||Edwin Thompson Jaynes}} (2003) ''Probability Theory: The Logic of Science'', CUP. ISBN 978-0-521-59271-0 ([http://www-biba.inrialpes.fr/Jaynes/prob.html Link to Fragmentary Edition of March 1996]). {{ref-en}}
-* {{Cite book| title=Scientific Reasoning: the Bayesian Approach| author={{Не перекладено|Колін Хаусон|Howson, C.||Colin Howson}} та Urbach, P.| publisher={{Не перекладено|Open Court Publishing Company|||Open Court Publishing Company}}| year=2005| edition=3rd | isbn=978-0-8126-9578-6}} {{ref-en}}
+* {{Cite book| title=Scientific Reasoning: the Bayesian Approach| author={{Не перекладено|Колін Хаусон|Howson, C.||Colin Howson}} |author2=Urbach, P. |last-author-amp=yes | publisher={{Не перекладено|Open Court Publishing Company|||Open Court Publishing Company}}| year=2005| edition=3rd | isbn=978-0-8126-9578-6}} {{ref-en}}
-* {{Cite book| last1=Phillips|first1=L. D.|last2=Edwards|first2=Ward|chapter=Chapter 6: Conservatism in a Simple Probability Inference Task (''Journal of Experimental Psychology'' (1966) 72: 346-354) |title=A Science of Decision Making:The Legacy of Ward Edwards| editor=Jie W. Weiss та David J. Weiss| isbn=978-0-19-532298-9 |page=536 |date=October 2008 |publisher= Oxford University Press}} {{ref-en}}
+* {{Cite book| last1=Phillips|first1=L. D.|last2=Edwards|first2=Ward|chapter=Chapter 6: Conservatism in a Simple Probability Inference Task (''Journal of Experimental Psychology'' (1966) 72: 346-354) |title=A Science of Decision Making:The Legacy of Ward Edwards| editor=Jie W. Weiss |editor2=David J. Weiss| isbn=978-0-19-532298-9 |page=536 |date=October 2008 |publisher= Oxford University Press}} {{ref-en}}
 == Література ==
+* Повний звіт з історії баєсової статистики та дебати з частотними підходами читайте у {{cite book |last=Vallverdu |first=Jordi |title=Bayesians Versus Frequentists A Philosophical Debate on Statistical Reasoning |publisher=Springer |year=2016 |location=New York |isbn=978-3-662-48638-2 }} {{ref-en}}
 === Початкова ===
@@ Рядок 567: / Рядок 577: @@
 Наступні книги перелічено у порядку зростання статистичної складності:
 * Stone, JV (2013), «Bayes’ Rule: A Tutorial Introduction to Bayesian Analysis», [http://jim-stone.staff.shef.ac.uk/BookBayes2012/BayesRuleBookMain.html Download first chapter here], Sebtel Press, England. {{ref-en}}
+* {{Cite book| title=Understanding Uncertainty, Revised Edition| author={{нп|Денніс Ліндлі|Dennis V. Lindley||Dennis Lindley}} | publisher=John Wiley | year=2013| edition=2nd | isbn=978-1-118-65012-7}} {{ref-en}}
 * {{Cite book
  |title=Scientific Reasoning: The Bayesian Approach
- |author={{Не перекладено|Колін Хаусон|Colin Howson||Colin Howson}} та Peter Urbach
+ |author={{Не перекладено|Колін Хаусон|Colin Howson||Colin Howson}}
+ |author2=Peter Urbach
  |publisher={{Не перекладено|Open Court Publishing Company|||Open Court Publishing Company}}
  |year=2005
@@ Рядок 583: / Рядок 595: @@
 }} {{ref-en}}
 * {{Cite book
- |author={{Не перекладено|Морріс ДеҐрут|Morris H. DeGroot||Morris H. DeGroot}} та Mark J. Schervish
+ |author={{Не перекладено|Морріс ДеҐрут|Morris H. DeGroot||Morris H. DeGroot}}
+ |author2=Mark J. Schervish
+ |last-author-amp=yes
  |title=Probability and Statistics
  |edition=third
@@ Рядок 605: / Рядок 619: @@
  |year = 2008
  |isbn = 1-58488-697-8
- |author=Carlin, Bradley P. та Louis, Thomas A.
+ |author1=Carlin, Bradley P.
+ |author2=Louis, Thomas A.
+ |lastauthoramp=yes
 }} {{ref-en}}
 * {{Cite book
@@ Рядок 686: / Рядок 702: @@
 * {{Не перекладено|Ґленн Шафер|Glenn Shafer||Glenn Shafer}} та [[Джуда Перл|Pearl, Judea]], eds. (1988) ''Probabilistic Reasoning in Intelligent Systems'', San Mateo, CA: Morgan Kaufmann. {{ref-en}}
 * Pierre Bessière et al. (2013), «[http://www.crcpress.com/product/isbn/9781439880326 Bayesian Programming]», CRC Press. ISBN 9781439880326 {{ref-en}}
+* Francisco J. Samaniego (2010), "A Comparison of the Bayesian and Frequentist Approaches to Estimation" Springer, New York, ISBN 978-1-4419-5940-9 {{ref-en}}
 == Посилання ==
@@ Рядок 693: / Рядок 710: @@
 * [http://webuser.bus.umich.edu/plenk/downloads.htm Mathematical Notes on Bayesian Statistics and Markov Chain Monte Carlo] {{ref-en}}
 * [http://cocosci.berkeley.edu/tom/bayes.html Баєсова рекомендована бібліографія], категоризована та анотована [http://psychology.berkeley.edu/faculty/profiles/tgriffiths.html Томом Ґриффітсом] {{ref-en}}
-* A. Hajek та S. Hartmann: [http://stephanhartmann.org/HajekHartmann_BayesEpist.pdf Bayesian Epistemology], у: J. Dancy et al. (eds.), A Companion to Epistemology. Oxford: Blackwell 2010, 93-106. {{ref-en}}
+* A. Hajek та S. Hartmann: [https://web.archive.org/web/20110728055439/http://stephanhartmann.org/HajekHartmann_BayesEpist.pdf Bayesian Epistemology], у: J. Dancy et al. (eds.), A Companion to Epistemology. Oxford: Blackwell 2010, 93-106. {{ref-en}}
-* S. Hartmann та J. Sprenger: [http://stephanhartmann.org/HartmannSprenger_BayesEpis.pdf Bayesian Epistemology], у: S. Bernecker and D. Pritchard (eds.), Routledge Companion to Epistemology. London: Routledge 2010, 609–620. {{ref-en}}
+* S. Hartmann та J. Sprenger: [https://web.archive.org/web/20110728055519/http://stephanhartmann.org/HartmannSprenger_BayesEpis.pdf Bayesian Epistemology], у: S. Bernecker and D. Pritchard (eds.), Routledge Companion to Epistemology. London: Routledge 2010, 609–620. {{ref-en}}
 * [http://plato.stanford.edu/entries/logic-inductive/ ''Stanford Encyclopedia of Philosophy'': «Inductive Logic»] {{ref-en}}
 * [http://faculty-staff.ou.edu/H/James.A.Hawthorne-1/Hawthorne--Bayesian_Confirmation_Theory.pdf Bayesian Confirmation Theory] {{ref-en}}
@@ Рядок 700: / Рядок 717: @@
 {{Статистика|висновування}}
+{{Authority control}}
 [[Категорія:Баєсове висновування| ]]

Баєсове висновування: відмінності між версіями

Версія за 00:17, 28 травня 2017

Введення до правила Баєса

Формальне

Неформальне

Альтернативи баєсовому уточненню

Формальний опис баєсового висновування

Позначення

Баєсове висновування

Баєсове передбачування

Висновування над взаємовиключними вичерпними можливими значеннями

Загальне формулювання

Кілька спостережень

Параметричне формулювання

Математичні властивості

Інтерпретація множника

Правило Кромвеля

Асимптотична поведінка апостеріорного розподілу

Спряжені апріорні розподіли

Оцінки параметрів та передбачень

Приклади

Ймовірність гіпотези

Здійснення передбачування

У частотній статистиці та теорії рішень

Вибір моделі

Застосування

Комп'ютерні застосування

У залі суду

Баєсова епістемологія

Інші

Баєс та баєсове висновування

Історія

Див. також

Примітки

Джерела

Література

Початкова

Середнього рівня або просунута

Посилання

Навігаційне меню

Пошук