Баєсова ймовірність

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Ба́єсова ймові́рність (англ. Bayesian probability) — це одна з інтерпретацій поняття ймовірності. На протилежність до інтерпретування ймовірності як «частоти» або «схильності»[en] певного явища, баєсова ймовірність є величиною, що ми визначаємо з метою представлення стану знання[1] або переконання.[2] З баєсової точки зору ймовірність призначається гіпотезі, тоді як згідно з частотницькою точкою зору гіпотеза зазвичай перевіряється, не маючи призначеної ймовірності.

Баєсову інтерпретацію ймовірності можна розглядати як розширення логіки висловлень, що уможливлює міркування із гіпотезами, тобто судженнями, чиї істинність або хибність є невизначеними.

Баєсова ймовірність належить до категорії доказових імовірностей; для обчислення ймовірності гіпотези фахівець із баєсової статистики встановлює певну апріорну ймовірність, що потім уточнюється у світлі нових, доречних даних (свідчень).[3] Баєсова інтерпретація забезпечує стандартний набір процедур та формул для виконання цього обчислення.

Термін «баєсова» походить від математика та теолога XVIII сторіччя Томаса Баєса, що запропонував перший математичний підхід до нетривіальної задачі баєсового висновування.[4] Математик П'єр-Симон Лаплас започаткував та популяризував те, що тепер називається баєсовою ймовірністю.[5]

Загалом кажучи, існує два погляди на баєсову ймовірність, що інтерпретують поняття ймовірність різним чином. Згідно з об'єктивістським підходом, правила баєсової статистики може бути підтверджено вимогами раціональності та відповідності[en], та інтерпретовано як розширення логіки.[1][6] Згідно з суб'єктивістським підходом, ймовірність визначає «особисте переконання».[2]

Баєсова методологія[ред. | ред. код]

Баєсові методи характеризуються такими поняттями та процедурами:

  • Використанням випадкових змінних, або, загальніше, невідомих величин[7] для моделювання всіх джерел невизначеності у статистичних моделях. Це також включає невизначеність, що випливає з браку інформації (див. також випадкову та пізнавальну невизначеність[en]).
  • Потребою визначення апріорного розподілу ймовірності, що враховує наявну (апріорну) інформацію.
  • Послідовним застосуванням формули Баєса: щойно надходять додаткові дані, обчислити апостеріорний розподіл за допомогою формули Баєса; згодом цей апостеріорний розподіл стає наступним апріорним.
  • Для частотника гіпотеза є судженням (що мусить бути або істинним, або хибним), таким чином, частотницька ймовірність гіпотези є або нулем, або одиницею. В баєсовій статистиці, якщо значення істинності є невизначеним, гіпотезі може бути призначено ймовірність, що відрізняється від 0 та 1.

Об'єктивні та суб'єктивні баєсові ймовірності[ред. | ред. код]

Загалом кажучи, існує два погляди на баєсову ймовірність, що інтерпретують поняття «ймовірність» різним чином. Для об'єктивістів ймовірність об'єктивно вимірює правдоподібність тверджень, тобто, ймовірність твердження відповідає розсудливому переконанню, яке будь-хто (навіть «робот»), хто поділяють однакові знання, повинні поділяти у відповідності з правилами баєсової статистики, що може бути підтверджено вимогами раціональності та відповідності[en].[1][6] Для суб'єктивістів ймовірність відповідає «особистому переконанню».[2] Для суб'єктивістів раціональність та зв'язність обмежують властивості, що міг би мати предмет, дозволяючи істотне коливання в межах цих обмежень. Об'єктивні та суб'єктивні варіанти баєсової ймовірності відрізняються переважно в їхній інтерпретації та в побудові апріорної ймовірності.

Історія[ред. | ред. код]

Детальніші відомості з цієї теми ви можете знайти в статті Історія статистики § Баєсова статистика[en].

Термін баєсів стосується Томаса Баєса (1702—1761), який довів окремий випадок того, що тепер називається теоремою Баєса, у праці під назвою «Есе щодо розв'язання задачі у Доктрині шансів[en]».[8] У цьому окремому випадку апріорний та апостеріорний розподіли були бета-розподілами, а дані вибиралися з проб Бернуллі. П'єр-Симон Лаплас (1749—1827) впровадив загальну версію цієї теореми та застосовував її для підходу до задач небесної механіки, медичної статистики, надійності[en] та юриспруденції.[9] Раннє баєсове висновування, що використовувало рівномірний апріорний розподіл згідно з лапласовим принципом недостатнього обґрунтування[en], називалося «зворотною ймовірністю[en]» (оскільки воно здійснює зворотне висновування від спостережень до параметрів, або від наслідків до причин[10]). Після 1920-х років «зворотну ймовірність» було значною мірою витіснено набором методів, що стали називати частотницькою статистикою.[10]

У XX столітті ідеї Лапласа отримали подальший розвиток у двох різних напрямках, давши початок об'єктивній та суб'єктивній течіям у баєсовій практиці. «Теорія ймовірності» Гарольда Джеффріса (вперше опублікована 1939 року) відіграла важливу роль у відродженні баєсового погляду на ймовірність, з наступними працями Абрахама Валда (1950) та Леонарда Севіджа[en] (1954). Сам прикметник баєсів сходить до 1950-х років; похідні баєсовизм та нео-баєсовизм викарбувано у 1960-х.[11] В об'єктивістській течії статистичний аналіз залежить лише від прийнятої моделі та аналізованих даних.[12] Потреба в залученні суб'єктивних рішень відсутня. На відміну від цього, «суб'єктивістські» статистики заперечують можливість повністю об'єктивного аналізу в загальному випадку.

У 1980-х роках було різке зростання наукових досліджень та застосувань баєсових методів, що здебільшого стосувалися відкриття методів Монте-Карло марковських ланцюгів, які усунули чимало обчислювальних проблем та посилили зацікавленість у нестандартних, складних застосуваннях.[13] Попри ріст баєсових наукових досліджень, більшість початкового викладання й досі ґрунтується на частотницькій статистиці.[14][джерело?] Тим не менш, баєсові методи є широко визнаними та застосовуваними, наприклад, у галузі машинного навчання.[15]

Обґрунтування баєсових імовірностей[ред. | ред. код]

Використання баєсових ймовірностей як основи для баєсового висновування підтримувалося кількома доведеннями, такими як аксіоми Кокса[en], доведенням голландської системи ставок[en], доведенням на базі теорії рішень та теоремою де Фінетті[en].

Аксіоматичний підхід[ред. | ред. код]

Річард Кокс[en] показав,[6] що баєсове уточнення слідує кільком аксіомам, включно з двома функційними рівняннями та спірною гіпотезою диференційовності. Відомо, що розробка Кокса 1961 року (переважно скопійована Джейнсом[en]) не є суворою, і насправді Галперном[en] було знайдено контрприклад.[16] Припущення про диференційовність чи навіть безперервність є сумнівним, оскільки булева алгебра виразів може бути лише скінченною.[7] Щоби зробити цю теорію суворішою, різними авторами було запропоновано інші аксіоматизації.[7]

Підхід голландської системи ставок[ред. | ред. код]

Доведення голландської системи ставок, що запропонував де Фінетті, базується на парі. Система ставок є голландською[en] тоді, коли вправний гравець укладає такий набір парі, що гарантує вигоду, не залежно від результатів парі. Якщо букмекер у побудові своїх шансів слідує правилам баєсового числення, то голландську систему ставок зробити неможливо.

Проте Ян Хакінг[en] зауважив, що традиційні аргументи голландської системи ставок не визначали використання саме баєсового уточнення: вони залишили відкритою можливість, що не-баєсові правила уточнення можуть обходити голландську систему ставок. Наприклад, Хакінг пише[17], що

Й ані аргумент голландської системи ставок, ані жоден інший в арсеналі доказів ймовірнісних аксіом персоналістів не тягне за собою динамічного припущення. Жоден не тягне за собою баєсовизму. Тому персоналістові потрібно, щоби динамічне припущення було баєсовим. Це є правда, що в послідовності персоналіст може відмовитися від байєсової моделі навчання на досвіді. Сіль може втратити свій смак.
Оригінальний текст (англ.)
And neither the Dutch book argument, nor any other in the personalist arsenal of proofs of the probability axioms, entails the dynamic assumption. Not one entails Bayesianism. So the personalist requires the dynamic assumption to be Bayesian. It is true that in consistency a personalist could abandon the Bayesian model of learning from experience. Salt could lose its savour.

Насправді, існують не-баєсові правила уточнення, що також обходять голландську систему ставок (як обговорюється в літературі про «кінематику ймовірностей» після публікації правила Річарда Джефрі[en], що й саме розглядається як баєсове[18]). Додаткові гіпотези, достатні для (однозначного) вказання баєсового уточнення, є значними, складними та незадовільними.[19]

Підхід теорії рішень[ред. | ред. код]

Обґрунтування статистичної теорії рішень використання баєсового висновування (і відтак баєсових імовірностей) було запропоновано Абрахамом Валдом, який довів, що кожна прийнятна[en] статистична процедура є або баєсовою процедурою, або границею баєсових процедур.[20] І навпаки, кожна баєсова процедура є прийнятною[en].[21]

Особисті ймовірності та об'єктивні методи побудови апріорних[ред. | ред. код]

Після праці Ремзі та фон Неймана про теорію очікуваної корисності фахівці з теорії рішень пояснили раціональну поведінку із використанням розподілу ймовірності для агента. Йоган Пфанцагль завершив «Теорію ігор та економічної поведінки[en]», запропонувавши аксіоматизацію суб'єктивної ймовірності та корисності — завдання, залишене незавершеним фон Нейманом та Оскаром Морґенштерном: їхня первісна теорія для зручності передбачала, що всі агенти мають однаковий розподіл ймовірностей.[22] Аксіоматизацію Пфанцагля було схвалено Оскаром Морґенштерном: «Фон Нейман та я передбачили» питання, чи ймовірності «могли би, можливо типовіше, бути суб'єктивними, та конкретно заявили, що в останньому випадку може бути знайдено аксіоми, з яких могло би бути виведено бажану числову корисність разом зі значеннями ймовірностей (пор. с. 19 Теорії ігор та економічної поведінки[en]). Ми не довершували це; це було продемонстровано Пфанцаглем… з усією необхідною суворістю».[23]

Ремзі та Севідж[en] зауважили, що розподіли ймовірностей окремих агентів може бути об'єктивно вивчено в експериментах. Роль обґрунтування й незгоди в науці визнавалася починаючи з Аристотеля, і ще ясніше за Френсіса Бекона. Об'єктивність науки полягає не в психології окремих науковців, але в самому процесі науки, та особливо у статистичних методах, як зауважив Ч. Пірс.[24] Нагадуємо, що, об'єктивні методи спростування припущень про особисті ймовірності використовувалися протягом півстоліття, як було зауважено вище. Процедури перевірки гіпотез про ймовірності (з використанням скінченних проб) завдячують Ремзі (1931) та де Фінетті[en] (1931, 1937, 1964, 1970). Як Бруно де Фінетті[en], так і Френк Ремзі визнають[джерело?] свій борг перед прагматичною філософією[en], зокрема (для Ремзі) перед Чарлзом Пірсом.

«Перевірка Ремзі» для оцінювання розподілів ймовірності є теоретично реалізовною, і вона займала експериментальних психологів протягом півстоліття.[25] Ця праця показує, що баєсово-ймовірнісні припущення можливо спростовувати, і отже вони відповідають емпіричному критерієві Чарлза Пірса, чия праця надихнула Ремзі. (Цей критерій спростовності було популяризовано Карлом Поппером.[26][27])

Сучасні праці над експериментальною оцінкою особистих ймовірностей використовують рандомізацію, сліпий метод та процедури булевих рішень експерименту Пірса-Ястрова[en].[28] Оскільки особи діють відповідно до різних оцінок ймовірності, ці ймовірності агентів є «особистими» (проте придатними до об'єктивного вивчення).

Особисті ймовірності є проблематичними для науки та деяких застосувань, у яких ухвалювачам рішень бракує знань або часу для визначення обґрунтованого розподілу ймовірності (на підставі якого вони готуються діяти). Щоби відповідати потребам науки та людським обмеженням, баєсові статистики розробили «об'єктивні» методи визначення апріорних ймовірностей.

Справді, деякі баєсівці стверджують, що апріорний стан знання визначає єдиний (унікальний) апріорний розподіл ймовірності для «звичайних» статистичних задач; пор. з коректно поставленими задачами. Знаходження правильного методу побудови таких «об'єктивних» апріорних (для відповідних класів звичайних задач) було предметом пошуку теоретиків статистики від Лапласа до Джона Кейнса, Гарольда Джеффріса та Едвіна Джейнса[en]: теоретики та їхні послідовники запропонували декілька методів для побудови «об'єктивних» апріорних:

Кожен із цих методів вносить корисні апріорні для «звичайних» однопараметрових задач, і кожне апріорне може впоруватися з декількома складними статистичними моделями (з «нерегулярністю», або з декількома параметрами). Кожен із цих методів був корисним у баєсовій практиці. Справді, методи побудови «об'єктивних» (або ж «стандартних», або «необізнаних») апріорних було розроблено видатними суб'єктивістськими (або «персоналістськими») баєсівцями, такими як Джеймс Бергер[en] (Дюкський університет) та Хосе-Мігель Бернардо[en] (Університет Валенсії), просто тому, що такі апріорні потрібні для баєсового застосування, зокрема в науці.[29] Пошук «універсального методу побудови апріорних» продовжує приваблювати статистичних теоретиків.[29]

Отже, баєсів статистик потребує або використання обґрунтованих апріорних (із застосуванням відповідного досвіду або попередніх даних), або вибору серед конкуруючих методів побудови «об'єктивних» апріорних.

Баєсове середнє[ред. | ред. код]

Ба́єсове сере́днє є методом оцінювання середнього значення вибірки згідно з баєсовою інтерпретацією, де замість оцінювання середнього суворо з будь-яких або всіх доступних даних набору до обчислення може також бути включено іншу наявну інформацію, пов'язану із цим набором даних, з метою мінімізації впливу великих відхилень, або для заявлення стандартного значення, якщо набір даних є малим.

Обчислення баєсового середнього включає апріорне середнє m та сталу C. Сталій C встановлюється значення, пропорційне типовому розмірові набору даних. Це значення є більшим, коли очікувані відхилення між наборами даних (у межах більшої вибірки) є малими. Воно є меншим, коли очікується, що набори даних значно різнитимуться один від одного.

[30]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. а б в Jaynes, E.T. Bayesian Methods: General Background [Архівовано 6 серпня 2015 у Wayback Machine.] In Maximum-Entropy and Bayesian Methods in Applied Statistics [Архівовано 11 липня 2015 у Wayback Machine.], by J. H. Justice (ed.). Cambridge: Cambridge Univ. Press, 1986 (англ.)
  2. а б в de Finetti, B. (1974) Theory of probability (2 vols.), J. Wiley & Sons, Inc., New York (англ.)
  3. Paulos, John Allen. The Mathematics of Changing Your Mind, [Архівовано 30 березня 2014 у Wayback Machine.] New York Times (US). August 5, 2011; retrieved 2011-08-06 (англ.)
  4. Stigler, Stephen M. (1986) The history of statistics. [Архівовано 12 липня 2015 у Wayback Machine.] Harvard University press. pg 131. (англ.)
  5. Stigler, Stephen M. (1986) The history of statistics. [Архівовано 12 липня 2015 у Wayback Machine.], Harvard University press. pp97-98, 131. (англ.)
  6. а б в Cox, Richard T. Algebra of Probable Inference, The Johns Hopkins University Press, 2001 (англ.)
  7. а б в Dupré, Maurice J., Tipler, Frank T. New Axioms For Bayesian Probability[недоступне посилання з лютого 2019], Bayesian Analysis (2009), Number 3, pp. 599—606 (англ.)
  8. McGrayne, Sharon Bertsch. (2011). The Theory That Would Not Die, p. 10., с. 10, на «Google Books» (англ.)
  9. Stigler, Stephen M. (1986) The history of statistics. Harvard University press. Chapter 3. (англ.)
  10. а б Fienberg, Stephen E. (2006). When did Bayesian Inference Become ‘Bayesian’? (PDF). Bayesian Analysis. 1 (1): 1–40 [p. 5]. doi:10.1214/06-ba101. Архів оригіналу (PDF) за 10 вересня 2014. Процитовано 14 липня 2015. (англ.)
  11. «The works of Wald, Statistical Decision Functions (1950) and Savage[en], The Foundation of Statistics (1954) are commonly regarded starting points for current Bayesian approaches»; «Recent developments of the so-called Bayesian approach to statistics» Marshall Dees Harris, Legal-economic research, University of Iowa. Agricultural Law Center (1959), p. 125 (fn. 52); p. 126. «This revolution, which may or may not succeed, is neo-Bayesianism. Jeffreys tried to introduce this approach, but did not succeed at the time in giving it general appeal.» Annals of the Computation Laboratory of Harvard University 31 (1962), p. 180. «It is curious that even in its activities unrelated to ethics, humanity searches for a religion. At the present time, the religion being 'pushed' the hardest is Bayesianism.» Oscar Kempthorne, 'The Classical Problem of Inference—Goodness of Fit', Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability (1967), p. 235 [Архівовано 15 липня 2015 у Wayback Machine.].
  12. Bernardo, J.M.[en] (2005), Reference analysis, Handbook of statistics, 25, 17–90 (англ.)
  13. Wolpert, R.L. (2004) A conversation with James O. Berger, Statistical science, 9, 205—218 (англ.)
  14. Bernardo, José M.[en] (2006) A Bayesian mathematical statistics primer [Архівовано 10 листопада 2011 у Wayback Machine.]. ICOTS-7
  15. Bishop, C.M. Pattern Recognition and Machine Learning. Springer, 2007 (англ.)
  16. Halpern, J. A counterexample to theorems of Cox and Fine, Journal of Artificial Intelligence Research, 10: 67-85. (англ.)
  17. Hacking (1967, Section 3, page 316), Hacking (1988, page 124) (англ.)
  18. Bayes' Theorem. stanford.edu. Архів оригіналу за 28 квітня 2019. Процитовано 15 липня 2015. (англ.)
  19. van Frassen, B.[en] (1989) Laws and Symmetry, Oxford University Press. ISBN 0-19-824860-1 (англ.)
  20. Wald, Abraham. Statistical Decision Functions. Wiley 1950. (англ.)
  21. Bernardo, José M., Smith, Adrian F.M. Bayesian Theory. John Wiley 1994. ISBN 0-471-92416-4. (англ.)
  22. Pfanzagl (1967, 1968)
  23. Morgenstern (1976, С. 65) (англ.)
  24. Stigler, Stephen M. (1978). Mathematical statistics in the early States. Annals of Statistics. 6 (March): 239–265 esp. p. 248. doi:10.1214/aos/1176344123. JSTOR 2958876. MR 0483118. Архів оригіналу за 20 липня 2015. (англ.)
  25. Davidson et al. (1957) (англ.)
  26. «Karl Popper» in Stanford Encyclopedia of Philosophy [Архівовано 27 червня 2007 у Wayback Machine.] (англ.)
  27. Popper, Karl. (2002) The Logic of Scientific Discovery [Архівовано 15 вересня 2015 у Wayback Machine.] 2nd Edition, Routledge ISBN 0-415-27843-0 (Reprint of 1959 translation of 1935 original) Page 57. (англ.)
  28. Peirce & Jastrow (1885) (англ.)
  29. а б Bernardo, J. M. (2005). Reference Analysis [Архівовано 23 листопада 2015 у Wayback Machine.]. Handbook of Statistics 25 (D. K. Dey and C. R. Rao eds). Amsterdam: Elsevier, 17-90 (англ.)
  30. Yang, Xiao; Zhang, Zhaoxin (2013). Combining Prestige and Relevance Ranking for Personalized Recommendation. Proceedings of the 22nd ACM international conference on information & knowledge management (CIKM): 1877—1880. doi:10.1145/2505515.2507885. (англ.)

Література[ред. | ред. код]

Посилання[ред. | ред. код]