Теорема Баєса

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Синій неоновий знак, що показує просте твердження теореми Баєса

У теорії ймовірностей та статистиці Теоре́ма Ба́єса (або ж Зако́н Ба́єса, чи Правило Баєса) визначає співвідношення поточної ймовірності до попередньої. Вона є важливою в математичному маніпулюванні умовними ймовірностями.

При застосуванні, задіяні у теоремі Баєса ймовірності можуть мати різні інтерпретації[en]. В одній із цих інтерпретацій теорема Баєса використовується безпосередньо у певному підході до статистичного виведення[en]. Зокрема, при баєсовій інтерпретації ймовірності[en] ця теорема виражає, як повинна раціонально змінюватися суб'єктивна міра впевненості при врахуванні свідчення: це є баєсовим виведенням, що є фундаментальним для баєсової статистики[en]. Тим не менш, теорема Баєса має численні застосування у широкому спектрі обчислень із залученням ймовірностей, а не лише у баєсовому виведенні.

Теорему Баєса названо на честь прп. Томаса Баєса ([ˈbz]; 1701–1761), який першим[Джерело?] показав, як використовувати свідчення для уточнення переконань. Її було розвинуто далі П'єром-Симоном Лапласом, який вперше опублікував це сучасне формулювання у своїй праці 1812 року «Аналітична теорія ймовірностей[en]». Сер Гарольд Джеффріс поклав баєсів алгоритм та лапласове формулювання на аксіоматичну основу. Деффріс писав, що теорема Баєса «є для теорії ймовірностей тим, чим теорема Піфагора є для геометрії».[1]

Твердження теореми[ред.ред. код]

Теорема Баєса задається математично наступним рівнянням:[2]

P(A|B) = \frac{P(B | A)\, P(A)}{P(B)},

де A та B є подіями.

Ввідний приклад[ред.ред. код]

Вся продукція заводу виробляється на трьох станках. На ці три станки приходяться 20%, 30% та 50% продукції відповідно. Частка бракованих виробів є такою: 5% для першого станка, 3% для другого станка та 1% для третього. Якщо виріб, вибраний навмання із загального обсягу продукції, виявився бракованим, то якою є ймовірність того, що його було зроблено на третьому станку?

Розв'язання є таким. Нехай A_i позначає подію, що випадково вибраний виріб було зроблено на i-тому станку (для i=1,2,3). Нехай B позначає подію, що випадково вибраний виріб є бракованим. Тоді ми маємо наступну інформацію:

P(A_1)=0.2, P(A_2)=0.3, P(A_3)=0.5

Якщо виріб було зроблено на станку A_1, то ймовірністю його бракованості є 0.05, тобто, P(B|A_1)=0.05. Загалом ми маємо

P(B|A_1)=0.05, P(B|A_2)=0.03, P(B|A_3)=0.01

Для отримання відповіді на початкове питання ми спочатку знаходимо P(B). Це може бути зроблено наступним чином:

P(B) = \sum_{i=1}^{3} P(B|A_i)P(A_i) = (0.05)(0.2) + (0.03)(0.3) + (0.01)(0.5) = 0.024

Отже, 2.4% загального обсягу продукції заводу є бракованими.

Нам задано, що B сталося, і ми хочемо обчислити умовну ймовірність A_3. За теоремою Баєса

P(A_3|B) = \frac{P(B|A_3)P(A_3)}{P(B)} = \frac{(0.01)(0.50)}{0.024} = \frac{5}{24}.

За умови бракованості виробу ймовірністю того, що його було зроблено на третьому станку, є лише 5/24. Незважаючи на те, що станок 3 виробляє половину загального обсягу продукції, він видає значно меншу частку бракованих виробів. Тому знання того, що вибраний виріб є бракованим, дозволяє нам замінити апріорну ймовірність P(A_3)=1/2 меншою апостеріорною ймовірністю P(A_3|B)=5/24.

Інтерпретації[ред.ред. код]

Геометрична візуалізація теореми Баєса. Значення w, x, y та z у таблиці задають відносну вагу кожних з відповідних умов та випадків. Фігури позначають клітинки таблиці, залучені до кожного з показників, де ймовірність є затемненою часткою фігури. Це показує, що P(A|B) P(B) = P(B|A) P(A), тобто, P(A|B) = P(B|A) P(A)P(B). Схожі міркування може бути застосовано, щоби показати, що P(Ā|B) = P(B|Ā) P(Ā)P(B) тощо.

Інтерпретація теореми Баєса залежить від інтерпретацій імовірності[en], що приписуються її членам. Нижче описано дві головні інтерпретації.

Баєсова інтерпретація[ред.ред. код]

У баєсовій (або епістемологічній) інтерпретації[en] ймовірність вимірює міру впевненості. Теорема Баєса відтак пов'язує міру впевненості у висловленні до та після врахування свідчення. Наприклад, припустімо, що вважається із впевненістю 50%, що монета вдвічі ймовірніше падає орлом, ніж решкою. Якщо монета підкидається кілька разів та спостерігаються результати, то міра впевненості може рости, зменшуватися або залишатися такою ж, у залежності від результатів.

Для висловлення A та свідчення B

  • P(A), апріорна, — це початкова міра впевненості в A.
  • P(A|B), апостеріорна, — це міра впевненості із врахуванням B.
  • частка \frac{P(B|A)}{P(B)} представляє підтримку, що B надає для A.

Для подальшої інформації про застосування теореми Баєса при баєсовій інтерпретації ймовірності див. баєсове виведення.

Частотна інтерпретація[ред.ред. код]

Ілюстрація частотної інтерпретації за допомогою деревних схем[en]. Теорема Баєса зв'язує умовні ймовірності з оберненими до них.

У частотній інтерпретації[en] ймовірність вимірює частку результатів. Наприклад, припустімо, що експеримент проводиться багато разів. P(A) є часткою результатів із властивістю A, а P(B) — із властивістю B. P(B|A) є часткою результатів із властивістю B серед результатів із властивістю A, а P(A|B) — часткою тих, що з A серед тих, що з B.

Роль теореми Баєса найкраще візуалізується за допомогою деревоподібних схем, як показано праворуч. Ці дві діаграми розділюють одні й ті самі результати за A та B у протилежному порядку, для отримання зворотних ймовірностей. Теорема Баєса слугує зв'язком між цими двома розділюваннями.

Форми[ред.ред. код]

Події[ред.ред. код]

Проста форма[ред.ред. код]

Для подій A та B, за умови, що P(B) \ne 0,

P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}.

У багатьох застосуваннях, наприклад, у баєсовому виведенні, подія B під час розгляду є фіксованою, і ми хочемо розглядати вплив того, що трапилося її спостереження, на нашу впевненість у різних можливих подіях A. У такій ситуації знаменник крайнього виразу, ймовірність заданого свідчення B, є фіксованим, а варіювати ми хочемо A. Тоді теорема Баєса показує, що апостеріорні ймовірності є пропорційними до чисельника:

P(A|B) \propto P(A) \cdot P(B|A) \ (пропорційність за A для заданого B).

Словами: апостеріорне пропорційне апріорній кількості разів правдоподібності.[3]

Якщо події A_1, A_2, \ldots є взаємовиключними та вичерпними, тобто, одна з них точно відбувається, але жодні дві не можуть відбуватися одночасно, і ми знаємо їхні ймовірності з точністю до пропорційності, то ми можемо визначити коефіцієнт пропорційності, використовуючи той факт, що їхні ймовірності повинні давати в сумі одиницю. Наприклад, для заданої події A сама подія A та її доповнення \lnot A є взаємовиключними та вичерпними. При позначенні коефіцієнту пропорційності через c ми маємо

P(A|B) = c \cdot P(A) \cdot P(B|A) \ та P(\neg A|B) = c \cdot P(\neg A) \cdot P(B|\neg A).

Шляхом додавання цих двох формул ми виводимо

 c = \frac{1}{P(A) \cdot P(B|A) + P(\neg A) \cdot P(B|\neg A) }.

Альтернативна форма[ред.ред. код]

Іншою формою теореми Баєса, що звичайно зустрічається при розгляді двох конкурентних тверджень або гіпотез, є

P(A|B) = \frac{P(B|A)\,P(A)}{ P(B|A) P(A) + P(B|\neg A) P(\neg A)}.

Для епістемологічної інтерпретації:

Для висловлення A та свідчення або передумови B,[4]

Розширена форма[ред.ред. код]

Часто для деякого розбиття \{ A_j \} простору подій цей простір подій задається або умоглядно представляється у термінах P(A_j) та P(B|A_j). У такому випадку зручно обчислювати P(B) із використанням закону повної ймовірності:

P(B) = {\sum_j P(B|A_j) P(A_j)}
\Rightarrow P(A_i|B) = \frac{P(B|A_i)\,P(A_i)}{\sum\limits_j P(B|A_j)\,P(A_j)}.

В окремому випадку, коли A є двійковою змінною[en]:

P(A|B) = \frac{P(B|A)\,P(A)}{ P(B|A) P(A) + P(B|\neg A) P(\neg A)}.

Випадкові змінні[ред.ред. код]

Схема, що ілюструє значення теореми Баєса при застосуванні до простору подій, породжуваного безперервними випадковими змінними X та Y. Зауважте, що існує випадок теореми Баєса для будь-якої точки області визначення. На практиці ці випадки може бути параметризовано записуванням вказаних густин ймовірності як функції від x та y.

Розгляньмо простір подій \Omega, породжуваний двома випадковими змінними X та Y. В принципі, теорема Баєса застосовується до подій A = \{ X = x \} та B = \{ Y = y \}. Однак, члени стають нульовими у точках, де будь-яка зі змінних має скінченну густину імовірності. Щоби теорема Баєса залишалася придатною, її може бути сформульовано у термінах доречних густин (див. Виведення).

Проста форма[ред.ред. код]

Якщо X є безперервною, а Y — дискретною,

f_X(x|Y=y) = \frac{P(Y=y|X=x)\,f_X(x)}{P(Y=y)}.

Якщо X є дискретною, а Y — безперервною,

 P(X=x|Y=y) = \frac{f_Y(y|X=x)\,P(X=x)}{f_Y(y)}.

Якщо як X, так і Y є безперервними,

 f_X(x|Y=y) = \frac{f_Y(y|X=x)\,f_X(x)}{f_Y(y)}.

Розширена форма[ред.ред. код]

Схема, що ілюструє, як часто умоглядно представляють простір подій, породжуваний безперервними випадковими змінними X та Y.

Безперервний простір подій часто представляється у термінах чисельників. Часто зручно виключати знаменник, використовуючи закон повної ймовірності. Для f_Y(y) це стає інтегралом

 f_Y(y) = \int_{-\infty}^\infty f_Y(y|X=\xi )\,f_X(\xi)\,d\xi.

Правило Баєса[ред.ред. код]

Докладніше: Правило Баєса

Правило Баєса — це теорема Баєса у формі шансів[en].

O(A_1:A_2|B) = O(A_1:A_2) \cdot \Lambda(A_1:A_2|B)

де

\Lambda(A_1:A_2|B) = \frac{P(B|A_1)}{P(B|A_2)}

називається коефіцієнтом Баєса[en], або відношенням правдоподібності, і шанси між двома подіями є просто відношенням ймовірностей цих двох подій. Отже,

O(A_1:A_2) = \frac{P(A_1)}{P(A_2)},
O(A_1:A_2|B) = \frac{P(A_1|B)}{P(A_2|B)}.

Таким чином, це правило говорить, що апостеріорні шанси є апріорними шансами, помноженими на коефіцієнт Баєса[en], або, іншими словами, апостеріорне пропорційне апріорній кількості разів правдоподібності.

Виведення[ред.ред. код]

Для подій[ред.ред. код]

Теорему Баєса може бути виведено з визначення умовної ймовірності:

P(A|B)=\frac{P(A \cap B)}{P(B)}, якщо P(B) \neq 0,
P(B|A) = \frac{P(A \cap B)}{P(A)}, якщо P(A) \neq 0,
\Rightarrow P(A \cap B) = P(A|B)\, P(B) = P(B|A)\, P(A),
\Rightarrow P(A|B) = \frac{P(B|A)\,P(A)}{P(B)}, якщо P(B) \neq 0.

Для випадкових змінних[ред.ред. код]

Для двох безперервних випадкових змінних X та Y теорему Баєса може бути виведено аналогічно з визначення умовної густини:

f_X(x|Y=y) = \frac{f_{X,Y}(x,y)}{f_Y(y)}
f_Y(y|X=x) = \frac{f_{X,Y}(x,y)}{f_X(x)}
\Rightarrow f_X(x|Y=y) = \frac{f_Y(y|X=x)\,f_X(x)}{f_Y(y)}.

Приклади[ред.ред. код]

Частотний приклад[ред.ред. код]

Деревна схема, що ілюструє частотний приклад. R, C, P та P з рискою — це події, що представляють рідкісний, поширений, з візерунком та без візерунку. Відсотки у дужках обчислюються. Зауважте, що надано три незалежні значення, отже є можливим обчислити обернене дерево (див. ілюстрацію вище).

Ентомолог бачить можливо рідкісний підвид жука, із-за візерунка на його спині. В рідкісного підвиду 98% мають цей візерунок, або P(Pattern|Rare) = 98%. В поширеного підвиду цей візерунок мають 5%. Рідкісний підвид налічує лише 0.1% від популяції. Наскільки ймовірно, що жук з візерунком є рідкісним, або чому дорівнює P(Rare|Pattern)?

З розширеної форми теореми Баєса (оскільки будь-який жук може бути лише рідкісним або поширеним),

\begin{align}P(\text{Rare}|\text{Pattern}) &=
\frac{P(\text{Pattern}|\text{Rare})P(\text{Rare})} {P(\text{Pattern}|\text{Rare})P(\text{Rare}) \, + \, P(\text{Pattern}|\text{Common})P(\text{Common})} \\[8pt]
&= \frac{0.98 \times 0.001} {0.98 \times 0.001 + 0.05 \times 0.999} \\[8pt]
&\approx 1.9\%. \end{align}

Перевірка на вживання наркотиків[ред.ред. код]

Деревна схема, що ілюструє приклад перевірки на вживання наркотиків. U, U з рискою, «+» та «-» є подіями, що представляють вживання, не вживання, позитивний результат та негативний результат. Відсотки у дужках обчислюються.

Припустімо, що тест на вживання наркотиків має чутливість[en] 99% та специфічність[en] 99%. Тобто, цей тест даватиме 99% вірних позитивних результатів для тих, хто вживає наркотики, і 99% вірних негативних результатів для тих, хто не вживає. Припустімо, що 0.5% людей вживають наркотики. Якщо для випадково вибраної особи перевірка виявляється позитивною, то якою є ймовірність, що він або вона вживає наркотики?


\begin{align}
P(\text{User}|\text{+}) &= \frac{P(\text{+}|\text{User}) P(\text{User})}{P(\text{+}|\text{User}) P(\text{User}) + P(\text{+}|\text{Non-user}) P(\text{Non-user})} \\[8pt]
&= \frac{0.99 \times 0.005}{0.99 \times 0.005 + 0.01 \times 0.995} \\[8pt]
&\approx 33.2\%
\end{align}

Незважаючи на видиму точність перевірки, якщо індивідуальні перевірки дають позитивний результат, то ймовірніше, що вони не вживають наркотиків, ніж що вони їх вживають.

Цей несподіваний результат виникає тому, що кількість тих, хто не вживає, є дуже великою у порівнянні з кількістю тих, хто вживає; таким чином, кількість хибних позитивних результатів (0.995%) переважує кількість вірних позитивних результатів (0.495%). На конкретних цифрах, якщо перевірено 1000 осіб, то очікується 995 тих, хто не вживає наркотиків, і 5 тих, хто вживає. Із 995 тих, хто не вживає, очікується 0.01 × 995 ≃ 10 хибних позитивних результатів. Із 5 тих, хто вживає, очікується 0.99 × 5 ≃ 5 вірних позитивних результатів. Із 15 позитивних результатів лише 5, близько 33%, є істинними.

Примітка: Важливість специфічності може бути проілюстровано показуванням, що навіть якщо чутливість є 100%, а специфічність є 99%, то ймовірність того, що особа вживає наркотики, є ≈33%, але якщо специфічність змінюється до 99.5%, а чутливість падає до 99%, то ймовірність того, що особа вживає наркотики, виростає до 49.8%.

Історія[ред.ред. код]

Теорему Баєса названо на честь преподобного Томаса Баєса (1701–61), який вивчав, як обчислювати розподіл для параметру ймовірності біноміального розподілу (у сучасній термінології). Неопублікований рукопис Баєса було суттєво відредаговано Річардом Прайсом[en] до того, як його було посмертно прочитано в Королівському товаристві. Прайс відредагував[5] головну працю Баєса, «Есе щодо розв'язання задачі у Доктрині шансів[en]» (1763), що з'явилася в журналі Philosophical Transactions, і містить теорему Баєса. Прайс написав передмову до цієї праці, що подає дещо з філософських основ баєсової статистики[en]. У 1765 році його було обрано Членом Королівського товариства, на визнання його праці над спадком Баєса.[6][7]

Французький математик П'єр-Симон Лаплас відтворив та узагальнив результати Баєса у 1774 році, очевидно, не підозрюючи про працю Баєса.[8][9] Стівен Стіглер[en] у 1983 році висловив думку, що теорему Баєса було відкрито Ніколасом Сондерсоном[en] за деякий час до Баєса.[10] Проте ця інтерпретація була спірною.[11]

Мартін Купер[12] та Шарон Мак-Грейн[13] стверджують, що внесок Річарда Прайса[en] був істотним:

« За сучасними стандартами ми повинні посилатися на правило Баєса-Прайса. Прайс відкрив працю Баєса, усвідомив її важливість, виправив її, вніс до статті, та знайшов їй застосування. Сучасний звичай використовувати саме лише ім'я Баєса є несправедливим, але він настільки вкорінився, що все інше має мало сенсу.[13]
Оригінальний текст (англ.)

By modern standards, we should refer to the Bayes–Price rule. Price discovered Bayes's work, recognized its importance, corrected it, contributed to the article, and found a use for it. The modern convention of employing Bayes's name alone is unfair but so entrenched that anything else makes little sense.

 »


Див. також[ред.ред. код]

Примітки[ред.ред. код]

  1. Jeffreys, Harold (1973). Scientific Inference (вид. III). Cambridge University Press. с. 31. ISBN 978-0-521-18078-8.  (англ.)
  2. Stuart, A.; Ord, K. (1994), Kendall's Advanced Theory of Statistics: Volume I—Distribution Theory, Edward Arnold[en], §8.7  (англ.)
  3. Lee, Peter M. (2012). Bayesian Statistics. Wiley[en]. ISBN 978-1-1183-3257-3.  (англ.)
  4. Bayes Theorem: Introduction. Trinity University.  (англ.)
  5. Richard Allen (1999). David Hartley on Human Nature. SUNY Press. с. 243–4. ISBN 978-0-7914-9451-6. Процитовано 16 червня 2013.  (англ.)
  6. Holland, pp. 46–7. (англ.)
  7. Richard Price (1991). Price: Political Writings. Cambridge University Press. с. xxiii. ISBN 978-0-521-40969-8. Процитовано 16 червня 2013.  (англ.)
  8. Лаплас вдосконалював теорему Баєса протягом десятиліть:
    • Лаплас оголосив про своє незалежне відкриття теореми Баєса у праці Laplace (1774) "Mémoire sur la probabilité des causes par les événements," Mémoires de l'Académie royale des Sciences de MI (Savants étrangers), 4: 621–656. Передруковано у: Laplace, Oeuvres complètes (Paris, France: Gauthier-Villars et fils, 1841), vol. 8, pp. 27–65. Доступно інтерактивно на: Gallica. (фр.) Теорема Баєса з'являється на стор. 29.
    • Лаплас представив вдосконалення теореми Баєса у праці Laplace (прочитано: 1783 / опубліковано: 1785) "Mémoire sur les approximations des formules qui sont fonctions de très grands nombres," Mémoires de l'Académie royale des Sciences de Paris, 423–467. Передруковано у: Laplace, Oeuvres complètes (Paris, France: Gauthier-Villars et fils, 1844), vol. 10, pp. 295–338. Доступно інтерактивно на: Gallica. (фр.) Теорему Баєса наведено на сторінці 301.
    • Див. також: Laplace, Essai philosophique sur les probabilités (Paris, France: Mme. Ve. Courcier [Madame veuve (тобто, вдова) Courcier], 1814), page 10. (фр.) Англомовний переклад: Pierre Simon, Marquis de Laplace with F. W. Truscott and F. L. Emory, trans., A Philosophical Essay on Probabilities (New York, New York: John Wiley & Sons, 1902), page 15. (англ.)
  9. Daston, Lorraine (1988). Classical Probability in the Enlightenment. Princeton Univ Press. с. 268. ISBN 0-691-08497-1.  (англ.)
  10. Stigler, Stephen M (1983). Who Discovered Bayes' Theorem?. The American Statistician 37 (4). с. 290–296. doi:10.1080/00031305.1983.10483122.  (англ.)
  11. Edwards, A. W. F. (1986). Is the Reference in Hartley (1749) to Bayesian Inference?. The American Statistician 40 (2). с. 109–110. doi:10.1080/00031305.1986.10475370.  (англ.)
  12. Hooper, Martyn (2013). Richard Price, Bayes' theorem, and God. Significance 10 (1). с. 36–39. doi:10.1111/j.1740-9713.2013.00638.x.  (англ.)
  13. а б McGrayne, S. B. (2011). The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines & Emerged Triumphant from Two Centuries of Controversy. Yale University Press. ISBN 978-0-300-18822-6.  (англ.)

Література[ред.ред. код]

  • Bruss, F. Thomas (2013), "250 years of 'An Essay towards solving a Problem in the Doctrine of Chance. By the late Rev. Mr. Bayes, communicated by Mr. Price, in a letter to John Canton, A. M. F. R. S.' ", DOI 10.1365/s13291-013-0077-z, Jahresbericht der Deutschen Mathematiker-Vereinigung, Springer Verlag, Vol. 115, Issue 3-4 (2013), 129-133. (англ.)
  • Gelman, A, Carlin, JB, Stern, HS, and Rubin, DB (2003), "Bayesian Data Analysis", Second Edition, CRC Press. (англ.)
  • Grinstead, CM and Snell, JL (1997), "Introduction to Probability (2nd edition)", American Mathematical Society (free pdf available) [1]. (англ.)
  • Hazewinkel, Michiel, ред. (2001), «Bayes formula», Encyclopedia of Mathematics, Springer, ISBN 978-1-55608-010-4, http://www.encyclopediaofmath.org/index.php?title=p/b015380  (англ.)
  • McGrayne, SB (2011). The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines & Emerged Triumphant from Two Centuries of Controversy. Yale University Press. ISBN 978-0-300-18822-6.  (англ.)
  • Laplace, P (1774/1986), "Memoir on the Probability of the Causes of Events", Statistical Science 1(3):364–378. (англ.)
  • Lee, PM (2012), "Bayesian Statistics: An Introduction", Wiley. (англ.)
  • Rosenthal, JS (2005), "Struck by Lightning: the Curious World of Probabilities". Harper Collings. (англ.)
  • Stigler, SM (1986). Laplace's 1774 Memoir on Inverse Probability. Statistical Science 1 (3). с. 359–363. doi:10.1214/ss/1177013620.  (англ.)
  • Stone, JV (2013), download chapter 1 of "Bayes' Rule: A Tutorial Introduction to Bayesian Analysis", Sebtel Press, England. (англ.)
  • Гнеденко Б.В. (1988). Курс теории вероятностей (вид. 6). Москва: Наука. с. 446.  (рос.)

Посилання[ред.ред. код]