Бета-біноміальний розподіл

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Бета-біноміальний розподіл
Функція ймовірностей
Функція розподілу ймовірностей
Cumulative probability distribution function for the beta-binomial distribution
Параметри nN0 — число випробувань
(дійсне)
(дійсне)
Носій функції k ∈ { 0, …, n }
Розподіл імовірностей

де Бета-функція
Функція розподілу ймовірностей (cdf)

де 3F2(a;b;x)узагальнена гіпергеометрична функція
Середнє
Дисперсія
Коефіцієнт асиметрії
Коефіцієнт ексцесу See text
Твірна функція моментів (mgf) де гіпергеометрична функція
Характеристична функція
Генератриса (pgf)

У теорії ймовірностей і статистиці, бета-біноміальний розподіл являє собою сімейство дискретних імовірнісних розподілів на скінченному носії невід'ємних цілих чисел, що виникає коли ймовірність успіху в кожному з фіксованих чи відомого числа випробувань Бернуллі або невідома, або є випадковою. Бета-біноміальний розподіл — це біноміальний розподіл, у якому ймовірність успіху в кожному з n випробувань не є фіксованою, а є випадковою реалізацією бета-розподіленої випадкової величини. Розподіл часто використовується в байєсівській статистиці, емпіричних методах Байєса та класичній статистиці для виявлення наддисперсії в біноміально розподілених даних.

Він зводиться до звичайного розподілу Бернуллі, коли n=1. Для α=β=1, це дискретний рівномірний розподіл від 0 до n. Він також як завгодно добре наближує біноміальний розподіл для великих α і β . Аналогічно, зводиться негативного біноміального розподілу при великими значеннями β і n. Бета-біноміальний є одновимірною версією мультиноміального розподілу Діріхле, оскільки біноміальний та бета-розподіл є одновимірними версіями мультиноміального та розподілу Діріхле відповідно.

Особливий випадок, коли α і β є цілими числами, також відомий як негативний гіпергеометричний розподіл.

Мотивація та виведення[ред. | ред. код]

Як складений розподіл[ред. | ред. код]

Бета-розподіл — це спряжений розподіл біноміального розподілу . Цей факт дозволяє аналітично вивести складений розподіл, якщо вважати параметр у біноміальному розподілі як випадкову реалізацію бета-розподіленої випадкової величини. А саме, якщо

тоді

де Bin( n, p ) означає біноміальний розподіл, а де pвипадкова величина з бета-розподілом.

тоді складений розподіл визначається як

Використовуючи властивості бета-функції, вираз можна переписати

Бета-біноміал як модель урни[ред. | ред. код]

Бета-біноміальний розподіл також можна пояснити за допомогою моделі урн для цілих додатних значень α і β, відомої як модель урни Полі. Зокрема, уявіть собі урну, що містить α червоних кульок та β чорних кульок, звідки їх виймають навмання. Якщо дістали червону кульку, то до урни повертають дві червоні кульки. Аналогічно з чорними кульками, якщо дістають чорну кулю, то натомість в урну повертають дві чорні. Якщо експеримент повторити n разів, то ймовірність отримати k червоних куль буде мати бета-біноміальний розподіл з параметрами n, α і β .

Якщо випадкові випробування здійснюються з простою заміною (повертають тільки одну, ту що щойно дістали, кульку), то маємо справу з біноміальним розподілом, а якщо експеримент здійснюються без заміни, то спостерігаємо реалізацію гіпергеометрично розподіленої випадкової величини.

Моменти та властивості[ред. | ред. код]

Перші три моменти

Ексцес задається формулою

Позначимо , тоді середнє можна записати як

і дисперсія як

де . Параметр відомий як кореляція «всередині класу» або «внутрішньокластерна» кореляція. Саме ця позитивна кореляція призводить до надмірної дисперсії.

Точкові оцінки[ред. | ред. код]

Метод моментів[ред. | ред. код]

Методом моментів можна отримати оцінки, а саме запишемо перший і другий моменти бета-біноміального розподілу

і прирівняємо ці нецентральні моменти до першого та другого нецентрального моменту вибірки відповідно

розв’яжемо для α і β і отримуємо

Ці оцінки можуть виглядати безглуздо негативними, що є доказом того, що дані є або нерозподілені зовсім або розподілені недостатньо у порівнянні до біноміального розподілу. У цьому випадку біноміальний розподіл і гіпергеометричний розподіл є альтернативними кандидатами відповідно.

Оцінка максимальної ймовірності[ред. | ред. код]

Хоч формула оцінки методом максимальної правдоподібності є непрактичною, враховуючи, що щільність складається із звичних функцій (гамма-функції та/або бета-функції), їх можна легко знайти за допомогою прямої чисельної оптимізації. Оцінки максимальної правдоподібності на основі емпіричних даних можуть бути обчислені за допомогою загальних методів підгонки мультиноміальних розподілів Полі, методи для яких описані в (Minka 2003). Пакет R VGAM через функцію vglm, використовуючи метод максимальної правдоподібності, полегшує оцінку УЛМ моделей з результатами, розподіленими за бета-біноміальним розподілом. Немає явної вимоги аби n було фіксованим впродовж спостережень.

Приклад[ред. | ред. код]

Наведені нижче дані показують кількість дітей чоловічої статі серед перших 12 дітей у 6115 сім'ях з 13-ма дітьми, взятих із лікарняних карт Саксонії 19 століття (Sokal and Rohlf, с.59 від Ліндсі). 13-ту дитину ігнорують, щоб пом’якшити ефект від того, що родина перестала пробувати завести дитину за умови досягнення бажаної статі.

Хлопчики 0 1 2 3 4 5 6 7 8 9 10 11 12
Родини 3 24 104 286 670 1033 1343 1112 829 478 181 45 7

Перші два емпіричні моменти

тому оцінка методом моментів

Оцінка методом максимальної ймовірності можна вирахувати чисельними методами

і максимальна логарифмічна правдоподібність

звідси знаходимо AIC

AIC для конкуруючої біноміальної моделі є AIC = 25070.34, таким чином, бачимо, що бета-біноміальна модель забезпечує кращу відповідність даним, тобто присутні докази надмірної дисперсії. Трайверс і Віллард висувають теоретичне обгрунтування гетерогенності (також відомої як «розривність») у гендерній схильності нащадків ссавців (тобто надмірна дисперсність).

Краща припасовка особливо добре помітна в хвостах

Хлопці 0 1 2 3 4 5 6 7 8 9 10 11 12
Спостережувані родини 3 24 104 286 670 1033 1343 1112 829 478 181 45 7
Очікуваний число (бета-біноміальний) 2.3 22.6 104.8 310.9 655.7 1036.2 1257.9 1182.1 853.6 461.9 177,9 43.8 5.2
Очікуваний число ( біноміальний p = 0,519215) 0.9 12.1 71.8 258.5 628.1 1085.2 1367.3 1265.6 854.2 410,0 132.8 26.1 2.3

Подальші байєсівські міркування[ред. | ред. код]

Зручно перепараметризувати розподіли так, щоб очікуване середнє значення апріорного розподілу було одним параметром, нехай

де

таким чином

Апостеріорний розподіл ρ ( θ | k ) також є бета-розподілом:

І

тоді як граничний розподіл m ( k | μ, M ) визначається як

Підставляючи назад M і μ, в термінах і , отримаємо:

який і є очікуваним бета-біноміальним розподілом з параметрами і .

Ми також можемо використати метод повторних матсподівань, щоб знайти очікуване значення граничних моментів. Запишемо нашу модель як двоступеневу модель складної вибірки. Нехай k i — кількість успіхів із n i спроб для події i :

Можемо знайти покрокові оцінки моментів для середнього та дисперсії, використовуючи моменти для розподілів у двокроковій моделі:

(Тут ми використовували закон повного матсподівання і закон повної дисперсії.)

Знайдемо точкові оцінки і . Розрахункове середнє розраховується з вибірки

Оцінку гіперпараметра M можна обчислити використовуючи оцінки моментів для дисперсії з двокрокової моделі:

І розв'яжемо для М:

де

Оскільки тепер ми маємо оцінки параметрів, і , для основного розподілу можемо знайти точкову оцінку для ймовірності успіху події i . Її можна обчислити як середнє зважене значення оцінки події і . Враховуючи наші точкові оцінки для апріора, можна підставити їхні значення, щоб знайти точкову оцінку для апостеріору

Фактори усадки[ред. | ред. код]

Можемо записати апостеріорну оцінку як середньозважене:

де називається коефіцієнтом усадки .

Пов'язані розподіли[ред. | ред. код]

Див. також[ред. | ред. код]

  • Мультиноміальний розподіл Діріхле

Посилання[ред. | ред. код]

Зовнішні посилання[ред. | ред. код]