Функція правдоподібності

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

У статистиці фу́нкція правдоподі́бності (англ. likelihood function) або просто правдоподі́бність (англ. likelihood) — це функція параметрів[es] статистичної моделі. Функції правдоподібності відіграють ключову роль у статистичному виведенні, особливо в методах оцінювання параметру на підставі набору статистик. В неформальному контексті «правдоподібність» часто вживається як синонім «імовірності» (англ. probability). Але при застосуванні в статистиці між цими термінами робиться розрізнення в залежності від ролей виходу або параметра. Ймовірність використовується при описі функції виходу при фіксованому значенні параметра. Наприклад, якщо монету було підкинуто 10 разів, і це правдива монета[en], то якою буде ймовірність її падіння кожного разу аверсом догори? Правдоподібність використовується при описі функції параметра при заданому виході. Наприклад, якщо монету було підкинуто 10 разів, і вона 10 разів впала догори аверсом, то якою є правдоподібність того, що ця монета є правдивою?

Визначення[ред.ред. код]

Правдоподібність набору значень параметрів θ за заданих виходів x дорівнює ймовірності цих спостережуваних виходів за заданих значень параметрів, тобто,

.

Функція правдоподібності для дискретних та неперервних розподілів імовірності визначається по-різному.

Дискретний розподіл імовірності[ред.ред. код]

Нехай X — випадкова змінна з дискретним розподілом імовірності p, який залежить від параметра θ. Тоді функція

що розглядається як функція від θ, називається функцією правдоподібності (θ для заданого виходу x змінної X). Іноді ймовірність значення x змінної X для значення параметра θ записують як ; часто записують як для підкреслення того, що попереднє відрізняється від , що не є умовною ймовірністю, оскільки θ є параметром, а не випадковою змінною.

Неперервний розподіл імовірності[ред.ред. код]

Нехай X — випадкова змінна з неперервним розподілом імовірності з функцією густини f, що залежить від параметра θ. Тоді функція

що розглядається як функція від θ, називається функцією правдоподібності (θ для заданого виходу x змінної X). Іноді функцію густини для значення x змінної X для значення параметра θ записують як , але це не слід змішувати з , яку не слід розглядати як густину умовної ймовірності.

Обговорення здійснення виведення за допомогою функцій правдоподібності див. у методах максимальної правдоподібності та перевірки відношенням правдоподібностей.

Логарифмічна правдоподібність[ред.ред. код]

Для багатьох застосувань зручнішим для роботи є натуральний логарифм функції правдоподібності, що називається логарифмі́чною правдоподі́бністю (англ. log-likelihood). Оскільки логарифм є монотонно зростаючою функцією, логарифм функції досягає максимального значення в тій же точці, що й сама функція, і, отже, логарифмічну правдоподібність можна використовувати замість правдоподібності при оцінці максимальної правдоподібності та в інших подібних методиках. Знаходження максимуму функції часто включає взяття похідної функції та розв'язку для параметра, що максимізується, і часто простіше, коли максимізована функція є логарифмічною правдоподібністю, а не звичайною функцією правдоподібності.

Наприклад, існують функції правдоподібності для параметрів, що описують сукупність статистично незалежних спостережень. В такій ситуації функція правдоподібності розкладається в добуток окремих функцій правдоподібності. Логарифм цього добутку є сумою окремих логарифмів, а похідну суми членів часто обчислити легше, ніж похідну добутку. До того ж, деякі поширені розподіли мають функції правдоподібності, що містять добутки множників, які включають піднесення до степеня. Логарифмом такої функції є сума добутків, знов-таки легша для диференціювання, аніж початкова функція.

Едвардз[1] заклав аксіоматичну основу для застосування відношення логарифмічних правдоподібностей як міри відносної підтри́мки (англ. support) однієї гіпотези проти іншої. Фу́нкцією підтри́мки (англ. support function) в такому разі є натуральний логарифм функції правдоподібності. Обидва терміни застосовуються в філогенетиці, але не були прийняті в загальних дослідженнях теми статистичного виведення.[2]

Приклад: гамма-розподіл[ред.ред. код]

Гамма-розподіл має два параметри, α та β. Функцією правдоподібності є

.

Знаходження оцінки максимальної правдоподібності β для єдиного спостережуваного значення x виглядає дещо складним. З його логарифмом працювати набагато простіше:

Максимізація логарифмічної правдоподібності спершу вимагає взяття часткової похідної за β:

.

Якщо є ряд незалежних спостережень x1, ..., xn, то спільною логарифмічною правдоподібністю буде сума окремих логарифмічних правдоподібностей, а похідною цієї суми буде сума похідних всіх окремих логарифмічних правдоподібностей:

Для завершення процедури максимізації спільної логарифмічної правдоподібності встановлюється рівність цього нулеві, й знаходиться розв'язок для β:

Тут позначає оцінку максимальної правдоподібності, а є вибірковим середнім спостережень.

Функція правдоподібності параметризованої моделі[ред.ред. код]

Із багатьох застосувань ми розглянемо тут одне, що має широку теоретичну та практичну важливість. Для заданого параметризованого сімейства[en] функцій густини ймовірності (або функцій маси ймовірності у випадку дискретних розподілів)

де θ є параметром, фу́нкцією правдоподі́бності (англ. likelihood function) є

що записується як

де x є спостережуваним виходом експерименту. Іншими словами, коли f(x | θ) розглядається як функція від x за фіксованого θ, вона є функцією густини ймовірності, а коли вона розглядається як функція від θ за фіксованого x, вона є функцією правдоподібності.

Це не є тим же, що й імовірність того, що ці параметри є правильними за заданої спостережуваної вибірки. Намагання інтерпретувати правдоподібність гіпотези за заданого спостережуваного свідчення як її імовірність є поширеною помилкою з потенційно катастрофічними наслідками в медицині, інженерії та юриспруденції. Як приклад цього див. хибу обвинувача[en].

З геометричної точки зору, якщо ми розглядаємо f (xθ) як функцію від двох змінних, то сімейство розподілів імовірності може розглядатися як сімейство кривих, паралельних осі x, тоді як сімейство функцій правдоподібності є перпендикулярними кривими, паралельними до осі θ.

Правдоподібності для неперервних розподілів[ред.ред. код]

Застосування густини імовірності замість імовірності у визначенні функції правдоподібності вище може бути пояснено простим чином. Припустімо, що замість точного спостереження, x, спостереження є значенням на короткому відрізку (xj−1xj) довжиною Δj, де нижні індекси відповідають наперед визначеним відрізкам. Тоді ймовірність отримання цього спостереження (на відрізку  j) є приблизно

де x* може бути будь-якою точкою відрізку j. Тоді, пригадуючи, що функцію правдоподібності визначено з точністю до мультиплікативної сталої, так само вірно буде сказати, що функція правдоподібності є приблизно

і потім, за розгляду зменшення довжин відрізків до нуля,

Правдоподібності для змішаних неперервно-дискретних розподілів[ред.ред. код]

Наведене вище може бути в простий спосіб розширено так, щоби дозволяти розгляд розподілів, що містять як дискретні, так і неперервні складові. Припустімо, що такий розподіл складається з якоїсь кількості дискретних мас імовірності pk(θ) та з густини f(x | θ), де сума всіх p, додана до інтегралу f, завжди є одиницею. За припущення, що можливо розрізняти спостереження, що відповідає одній з цих дискретних мас імовірності, від того, що відповідає складовій густини, функцію правдоподібності для спостереження з неперервної складової можна розглядати як наведену вище, шляхом встановлення довжини відрізку достатньо короткою для виключення будь-яких дискретних мас. Для спостереження з дискретної складової ймовірність може бути або записано безпосередньо, або її можна розглядати в наведеному вище контексті, кажучи, що ймовірність отримання спостереження на відрізку, що містить дискретну складову (будучи у відрізку j, що містить дискретну складову k), є приблизно

де може бути будь-якою точкою з відрізку j. Тоді, за розгляду зменшення довжин відрізків до нуля, функція правдоподібності для спостереження з дискретної складової є

де k є індексом маси дискретної ймовірності, що відповідає спостереженню x.

Той факт, що функцію правдоподібності може бути визначено в спосіб, що включає не порівнянні внески (густина та маса ймовірності), випливає зі способу її визначення, в якому функцію правдоподібності визначено до сталої пропорційності, де ця «стала» може змінюватися зі спостереженням x, але не з параметром θ.

Приклад 1[ред.ред. код]

Функція правдоподібності для оцінки ймовірності випадіння монети аверсом (H) без попереднього знання після спостереження HH
Функція правдоподібності для оцінки ймовірності випадіння монети аверсом (H) без попереднього знання після спостереження HHT

Нехай є ймовірністю того, що певна монета після підкидання випаде аверсом (H, англ. heads). Отже, ймовірність отримання двох аверсів за два підкидання (HH) є . Якщо , то ймовірністю[en] побачити два аверси є 0.25.

Іншим способом сказати це є сказати, що правдоподібністю того, що , за заданого спостереження HH є 0.25, тобто

Але це не теж саме, що й сказати, що ймовірністю того, що , за заданого спостереження HH, є 0.25. Ймовірністю спостереження HH, якщо дано , є 1, але це ще не означає, що ймовірність того, що , за заданого спостереження HH є 1. Два аверси підряд не доводять, що монета завжди випадає аверсом, оскільки два аверси підряд можливі для будь-якої .

Функція правдоподібності не є функцією густини ймовірності. Інтеграл функції правдоподібності в загальному випадку не є 1. В цьому прикладі інтеграл правдоподібності над відрізком [0, 1] в є 1/3, що показує, що функцію правдоподібності не можна інтерпретувати як функцією густини ймовірності .

Приклад 2[ред.ред. код]

Детальніші відомості з цієї теми Ви можете знайти в статті Задача про німецькі танки[en].

Розгляньмо банку, що містить N лотерейних квитків, пронумерованих від 1 од N. Якщо ви витягнете випадковий квиток, то отримаєте додатне число n, з імовірністю 1/N, якщо n ≤ N, та з нульовою ймовірністю, якщо n > N. Це може бути записано як

де дужки Айверсона[en] [n ≤ N] дорівнюють 1, якщо n ≤ N, та 0 в іншому разі. Якщо розглядати функцію від n для фіксованого N, це є розподілом імовірності, але якщо розглядати функцію від N для фіксованого n, це є функцією правдоподібності. Оцінкою максимальної правдоподібності для N є N0 = n (на відміну, максимумом дискретного рівномірного розподілу[en] є 2n − 1).

Ця функція правдоподібності не є розподілом імовірності, оскільки сума

є розбіжним рядом[en].

Припустимо, однак, що ви берете два квитки, а не один.

Ймовірністю виходу {n1n2}, де n1 < n2, є

Якщо розглядати функцію від N для фіксованого n2, це є функцією правдоподібності. Оцінкою максимальної правдоподібності для N є N0 = n2.

Цього разу сума

є збіжним рядом[en], і тому цю функцію правдоподібності може бути унормовано в розподіл імовірності.

Якщо ви берете 3 або більше квитків, то функція правдоподібності має строго визначене середнє значення, що є більшим за оцінку максимальної правдоподібності. Якщо ви берете 4 або більше квитків, то функція правдоподібності має також і строго визначене стандартне відхилення.

Відносна правдоподібність[ред.ред. код]

Функція відносної правдоподібності[ред.ред. код]

Припустімо, що оцінкою максимальної правдоподібності для θ є . Відносні вірогідності інших значень θ можна знайти, порівнюючи правдоподібність цих інших значень з правдоподібністю . Відно́сна правдоподі́бність (англ. relative likelihood) θ визначається[3][4] як

10%-ю областю правдоподібності для θ є

і загальніше, p-відсоткова о́бласть правдоподі́бності (англ. likelihood region) для θ визначається[3][4] як

Якщо θ є єдиним дійсним параметром, то p-відсоткова область правдоподібності, як правило, охоплюватиме інтервал дійсних чисел. В такому випадку ця область називається інтерва́лом правдоподі́бності (англ. likelihood interval).[3][4][5]

Інтервали правдоподібності можна порівняти з довірчими інтервалами. Якщо θ є єдиним дійсним параметром, то за певних умов 14.7%-й інтервал правдоподібності для θ буде таким же, як і 95%-й довірчий інтервал.[3] В дещо іншому формулюванні, що підходить для використання логарифмічних правдоподібностей (див. теорему Уїлкса), пробна статистика є подвоєною різницею логарифмічних правдоподібностей, а розподіл імовірності пробної статистики є хі-квадратним розподілом зі ступенями свободи, що дорівнюють різниці ступенів свободи між двома моделями (тому інтервал правдоподібності e−2 є таким же, як і довірчий інтервал 0.954; за умови, що різницею ступенів свободи буде 1).[5]

Ідея ґрунтувати інтервальну оцінку[en] на відносній правдоподібності сходить до Фішера у 1956 році, і з тих пір її використовували багато авторів.[5] Інтервал правдоподібності може застосуватись без вимоги якоїсь певної ймовірності накриття[en]; цим він відрізняється від довірчих інтервалів.

Відносна правдоподібність моделей[ред.ред. код]

Визначення відносної правдоподібності може бути узагальнено для порівняння різних статистичних моделей. Це узагальнення ґрунтується на ІКА (інформаційному критерієві Акаіке), або іноді на ІКАк (інформаційному критерієві Акаіке з коригуванням).

Припустімо, що для певного набору даних ми маємо дві статистичні моделі, M1 та M2. Також припустімо, що ІКА(M1) ≤ ІКА(M2). Тоді відно́сна правдоподі́бність (англ. relative likelihood) M2 по відношенню до M1 визначається[6] як

exp((ІКА(M1)−ІКА(M2))/2)

Щоби побачити, що це є узагальненням ранішого визначення, припустімо, що ми маємо якусь модель M із (можливо, багатовимірним) параметром θ. Потім для будь-якого θ встановімо, що M2 = M(θ), а також встановімо, що M1 = M(). Загальне визначення тепер дає такий же результат, як і раніше визначення.

Правдоподібності, що усувають завадні параметри[ред.ред. код]

В багатьох випадках правдоподібність є функцією більш ніж одного параметру, але інтерес зосереджується на оцінці лише одного, або щонайбільше декількох з них, з розглядом інших як завадних параметрів[en]. Було розроблено декілька альтернативних підходів для усунення таких завадних параметрів таким чином, що функцію правдоподібності може бути записано як функцію лише параметру (або параметрів), що становлять інтерес[en]; головними підходами є відособлена (англ. marginal), умовна (англ. conditional) та профільна (англ. profile) правдоподібності.[7][8]

Ці підходи є корисними, оскільки стандартні методи правдоподібності можуть ставати ненадійними або зазнавати повної невдачі, якщо завадних параметрів занадто багато, або якщо вони мають високу розмірність. Це особливо вірно тоді, коли завадні параметри можуть розглядатися як «втрачені дані»; вони являють собою не-незначну частку числа спостережень, і ця частка не зменшується зі збільшенням розміру вибірки. Часто ці підходи можуть застосовуватися для виведення формул замкненого вигляду[en] для статистичних перевірок, коли пряме застосування максимальної правдоподібності вимагає чисельних методів. Ці підходи знаходять застосування в деяких спеціалізованих темах, таких як послідовний аналіз.

Умовна правдоподібність[ред.ред. код]

Іноді для завадних параметрів можливо знайти достатню статистику, і обумовлювання цією статистикою дає в результаті правдоподібність, що не залежить від завадних параметрів.

Один із прикладів трапляється в таблицях 2×2, де обумовлювання усіма чотирма відособленими підсумками веде до умовної правдоподібності на основі нецентрального гіпергеометричного розподілу. Цей вид обумовлювання є також основою точного тесту Фішера[en].

Відособлена правдоподібність[ред.ред. код]

Іноді ми можемо усунути завадні параметри, розглядаючи правдоподібність на основі лише частини інформації з даних, наприклад, застосуванням порядків замість числових значень. Інший приклад трапляється в лінійних змішаних моделях[en], де розгляд правдоподібності лише для залишків після узгодження фіксованих впливів веде до оцінки залишкової максимальної правдоподібності[en] складових відхилення.

Профільна правдоподібність[ред.ред. код]

Коли функція правдоподібності залежить від багатьох параметрів, у залежності від застосування, нас може цікавити лише підмножина цих параметрів. Часто можливо зменшувати кількість нецікавих (завадних) параметрів[en], записуючи їх як функції від тих параметрів, що становлять інтерес. Наприклад, ці функції можуть бути значенням завадного параметру, що максимізує правдоподібність за заданого значення інших (цікавих) параметрів.

Ця процедура називається концентрацією параметрів, і дає в результаті концентровану функцію правдоподібності, також іноді відому як максимізована функція правдоподібності, але частіше звану функцією про́фільної правдоподі́бності (англ. profile likelihood). В такому разі можливо (і простіше) знаходити значення параметрів, що максимізують профільну функцію правдоподібності (аналогічно до максимальної правдоподібності).

Наприклад, розгляньмо модель регресійного аналізу з нормально розподіленими похибками. Найправдоподібнішим значенням дисперсії похибок є дисперсія залишків. Залишки залежать від усіх інших параметрів. Отже, параметр дисперсії може бути записано як функцію від усіх інших параметрів.

На відміну від умовних та відособлених правдоподібностей, методи профільної правдоподібності можуть застосовуватися завжди, навіть коли профільну правдоподібність не може бути записано явно. Проте профільна правдоподібність не є справжньою правдоподібністю, оскільки вона не ґрунтується безпосередньо на розподілі ймовірності, і це призводить до дещо менш задовільних властивостей. Робилися спроби вдосконалення, результатом яких стала видозмінена профільна правдоподібність (англ. modified profile likelihood).

Ідею профільної правдоподібності можна також застосовувати для обчислення довірчих інтервалів, що часто мають кращі властивості на малих вибірках, ніж ті, що ґрунтуються на асимптотичних стандартних похибках[en], обчислюваних з повної правдоподібності. У випадку оцінки параметра в частково спостережуваних системах профільна правдоподібність також може застосовуватися для аналізу ідентифіковності[en].[9] Результати аналізу профільної правдоподібності можуть включатися до аналізу невизначеності[en] передбачень моделей.[10]

Часткова правдоподібність[ред.ред. код]

Часткова правдоподібність (англ. partial likelihood) є складовою розкладу функції правдоподібності, що ізолює параметри, які становлять інтерес.[11] Вона є ключовою складовою моделі пропорційних інтенсивностей відмов[en].

Історичні зауваження[ред.ред. код]

Правдоподібність (likelihood, eikos, versimilis) охоплює ідею, що щось правдоподібно станеться, або сталося. Як формальне поняття, вона з'явилася в юриспруденції, торгівлі та схоластиці задовго до того, як їй було дано суворе математичне обґрунтування.[12] В англійській мові «правдоподібність» (англ. likelihood), починаючи з її найраніших застосувань, вирізнялася як пов'язана з «імовірністю» (англ. probability), але слабша за неї. Порівняння гіпотез шляхом оцінки правдоподібностей застосовувалося протягом століть, наприклад, Джоном Мілтоном в Ареопагітиці[en] (1644 р.): «when greatest likelihoods are brought that such things are truly and really in those persons to whom they are ascribed».

В Нідерландах Християн Гюйгенс застосував поняття правдоподібності в своїй книзі «Van rekeningh in spelen van geluck» («Про розрахунки в азартних іграх») у 1657 році.

У данській мові «likelihood» було застосовано Торвальдом Тіле[en] в 1889 році.[13][14][15]

В англійській мові «likelihood» з'являється в багатьох творах Чарлза Сандерса Пірса, де виведення на основі моделей (зазвичай абдукція[en], але іноді включно з індукцією) розрізняється зі статистичними процедурами на основі об'єктивної рандомізації. Пірсове віддавання переваги виведенню на основі рандомізації обговорюється в «Ілюстраціях до логіки науки»[en] (1877–1878 рр.) та в «Теорії ймовірного виведення»[en] (1883 р.)

« ймовірності, що є суворо об'єктивними, і в той же час дуже високими, хоча вони й не можуть ніколи бути абсолютно переконливими, повинні, тим не менш, випливати на наше віддавання переваги одній гіпотезі перед іншою; але незначні ймовірності, навіть якщо вони об'єктивні, не варті розгляду; а чисто суб'єктивні правдоподібності повинні ігноруватися зовсім. Бо вони є лише вираженням наших упереджених думок
Оригінальний текст (англ.)

probabilities that are strictly objective and at the same time very great, although they can never be absolutely conclusive, ought nevertheless to influence our preference for one hypothesis over another; but slight probabilities, even if objective, are not worth consideration; and merely subjective likelihoods should be disregarded altogether. For they are merely expressions of our preconceived notions

 »

— 7.227 в його Collected Papers[en]

« Але досвід повинен бути нашою картою в економічній навігації; і досвід показує, що правдподібності є підступними провідниками. Ніщо не спричинило марнування настільки великої кількості часу та ресурсів дослідників усіх типів, як ставання дослідників настільки відданими певним правдоподібностям, що вони забували всі інші чинники досліджуваної економіки; так що, якщо вона не є твердо обґрунтованою, правдоподібність набагато краще ігнорувати, або майже так; і навіть якщо вона здається твердо обґрунтованою, до неї треба підходити обережною ходою, тримаючи око на інших міркуваннях, і пам'ятаючи про спричинені катастрофи.
Оригінальний текст (англ.)

But experience must be our chart in economical navigation; and experience shows that likelihoods are treacherous guides. Nothing has caused so much waste of time and means, in all sorts of researchers, as inquirers' becoming so wedded to certain likelihoods as to forget all the other factors of the economy of research; so that, unless it be very solidly grounded, likelihood is far better disregarded, or nearly so; and even when it seems solidly grounded, it should be proceeded upon with a cautious tread, with an eye to other considerations, and recollection of the disasters caused.

 »

Essential Peirce[en], том 2, С. 108–109

Як і Тіле, Пірс розглядає правдоподібність для біноміального розподілу. Протягом всієї своєї кар'єри Пірс застосовує логарифм відношення шансів[en]. Пірсова схильність до застосування логарифмічних шансів[en] обговорюється Стівеном Стіглером[en].[16]

У Великобританії «правдоподібність» було популяризовано в математичній статистиці Р. А. Фішером у 1922 році:[17] «On the mathematical foundations of theoretical statistics» («Про математичні основи теоретичної статистики»). В цій праці Фішер також застосовує термін «метод максимальної правдоподібності». Фішер виступає проти зворотної ймовірності[en] як основи для статистичних виведень, і натомість пропонує виведення на основі функцій правдоподібності. Фішерове застосування «правдоподібності» усталило термінологію, що застосовується статистиками по всьому світі.

Див. також[ред.ред. код]

Примітки[ред.ред. код]

  1. Edwards, A.W.F. 1972. Likelihood. Cambridge University Press, Cambridge (expanded edition, 1992, Johns Hopkins University Press, Baltimore). ISBN 0-8018-4443-6 (англ.)
  2. Royall, R. 1997. Statistical Evidence. Chapman and Hall / CRC, Boca Raton. (англ.)
  3. а б в г Kalbfleisch J.G. (1985) Probability and Statistical Inference, Springer (§9.3.) (англ.)
  4. а б в Sprott D.A. (2000) Statistical Inference in Science, Springer (chap.2) (англ.)
  5. а б в Hudson, D. J. (1971). Interval Estimation from the Likelihood Function. Journal of the Royal Statistical Society, Series B[en] 33 (2). с. 256–262.  (англ.)
  6. Burnham K. P. & Anderson D.R. (2002), Model Selection and Multimodel Inference, §2.8 (Springer). (англ.)}
  7. Pawitan, Yudi (2001). In All Likelihood: Statistical Modelling and Inference Using Likelihood. Oxford University Press. ISBN 0-19-850765-8.  (англ.)
  8. Wen Hsiang Wei. Generalized linear model course notes. Tung Hai University, Taichung, Taiwan. с. Chapter 5. Процитовано 2007-01-23.  (англ.)
  9. Raue, A; Kreutz, C; Maiwald, T; Bachmann, J; Schilling, M; Klingmüller, U; Timmer, J (2009). Structural and practical identifiability analysis of partially observed dynamical models by exploiting the profile likelihood. Bioinformatics 25 (15). с. 1923–9. doi:10.1093/bioinformatics/btp358. PMID 19505944.  (англ.)
  10. Vanlier, J; Tiemann, C; Hilbers, P; van Riel, N (2012). An integrated strategy for prediction uncertainty analysis. Bioinformatics 28 (8). с. 1130–5. doi:10.1093/bioinformatics/bts088. PMID 22355081.  (англ.)
  11. Cox, D. R. (1975). Partial likelihood. Biometrika[en] 62 (2). с. 269–276. doi:10.1093/biomet/62.2.269. MR 0400509.  (англ.)
  12. James Franklin (2001). The Science of Conjecture: Evidence and Probability before Pascal. The Johns Hopkins University Press. ISBN 0-8018-7109-3.  (англ.)
  13. Anders Hald[en] (1998). A History of Mathematical Statistics from 1750 to 1930. New York: Wiley. ISBN 0-471-17912-4. 
  14. Steffen L. Lauritzen[en], Aspects of T. N. Thiele’s Contributions to Statistics. Bulletin of the International Statistical Institute, 58, 27–30, 1999.
  15. Steffen L. Lauritzen[en] (2002). Thiele: Pioneer in Statistics. [Oxford University Press]. с. 288. ISBN 978-0-19-850972-1. 
  16. Stigler, Stephen M. (2002). Statistics on the Table: The History of Statistical Concepts and Methods. Harvard University Press. с. 195. ISBN 9780674009790. «[Пірс] виявив, що оцінки [предмету його дослідження] змінювалися прямо пропорційно до логарифмічних шансів того, що вони дійсно були правильними, чудова рання поява логарифмічних шансів як експериментально визначеної міри певності»  (англ.)
  17. Fisher, R.A. (1922). On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society A 222 (594–604). с. 309–368. doi:10.1098/rsta.1922.0009. JFM 48.1280.02. JSTOR 91208.  (англ.)

Джерела[ред.ред. код]

Посилання[ред.ред. код]