Гіпергеометричний розподіл

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Гіпергеометричний розподіл
Функція ймовірностей
Функція розподілу ймовірностей
Параметри \begin{align}N&\in 0,1,2,\dots \\
                                 m&\in 0,1,2,\dots,N \\
                                 n&\in 0,1,2,\dots,N\end{align}\,
Носій функції \scriptstyle{k\, \in\, \max{(0,\, n+m-N)},\, \dots,\, \min{(m,\, n )}}\,
Розподіл ймовірностей {{{m \choose k} {{N-m} \choose {n-k}}}\over {N \choose n}}
Функція розподілу ймовірностей (cdf)
Середнє n m\over N
Медіана
Мода \left \lfloor \frac{(n+1)(m+1)}{N+2} \right \rfloor
Дисперсія n(m/N)(1-m/N)(N-n)\over (N-1)
Коефіцієнт асиметрії \frac{(N-2m)(N-1)^\frac{1}{2}(N-2n)}{[nm(N-m)(N-n)]^\frac{1}{2}(N-2)}
Коефіцієнт ексцесу  \left[\frac{N^2(N-1)}{n(N-2)(N-3)(N-n)}\right]

\cdot\left[\frac{N(N+1)-6N(N-n)}{m(N-m)}\right. +\left.\frac{3n(N-n)(N+6)}{N^2}-6\right]

Ентропія
Твірна функція моментів (mgf) \frac{{N-m \choose n} \scriptstyle{\,_2F_1(-n, -m; N - m - n + 1; e^{t}) } }
                         {{N \choose n}}  \,\!
Характеристична функція \frac{{N-m \choose n} \scriptstyle{\,_2F_1(-n, -m; N - m - n + 1; e^{it}) }}
{{N \choose n}}

Гіпергеометричний розподіл в теорії імовірності моделює кількість успішних вибірок без повернення зі скінченної сукупності.

витягнуті не витягнуті всього
з дефектом k D − k D
без дефекта n − k N + k − n − D N − D
всього n N − n N

Типовий приклад представлений у попередній таблиці: дано сукупність N об'єктів, з яких D мають дефект. Гіпергеометричний розподіл описує ймовірність того, що у вибірці з n різних об'єктів, витягнутих із сукупності, рівно k об'єктів є бракованими. Загалом, якщо випадкова величина X відповідає гіпергеометричному розподілу з параметрами N, D та n, то ймовірність отримання рівно k успіхів визначається формулою:

 f(k;N,D,n) = {{{D \choose k} {{N-D} \choose {n-k}}}\over {N \choose n}}

Ця ймовірність додатна, коли k лежить на проміжку між max{ 0, D + nN } та min{ n, D }. Наведену формулу можна трактувати так: існує  N \choose n способів заповнити залишок вибірки (без повернення). Є  D \choose k способів вибрати k бракованих об'єктів та  {N-D} \choose {n-k} способів заповнити залишок вибірки об'єктами без дефектів. У разі, коли розмір популяції є більшим, ніж розмір вибірки, гіпергеометричний розподіл добре апроксимується біноміальним розподілом з параметрами n (кількість випробувань) та p = D / N (ймовірність успіху в одному випробуванні).

Визначення[ред.ред. код]

Нехай є скінченна сукупність, яка складається з N елементів. Припустимо, що n із них мають потрібну нам властивість. Випадковим чином із загальної сукупності вибирається група з D елементів. Нехай Y — випадкова величина, що дорівнює кількості вибраних елементів, які мають потрібну властивість. Тоді функція ймовірностей Y має вигляд:

p_Y(k) \equiv \mathbb{P}(Y = k) = \frac{C_D^k\, C_{N-D}^{n-k}}{C_N^n},

де C_n^k \equiv {n \choose k} \equiv \frac{n!}{k!\, (n-k)!} позначає біноміальний коефіцієнт. Пишемо: Y \sim \mathrm{HG}(D,N,n).

Моменти[ред.ред. код]

Математичне сподівання \mathbb{E}[Y] = \frac{nD}{N},
Дисперсія \mathrm{D}[Y] = {n(D/N)(1-D/N)(N-n)\over (N-1)}.

Приклади застосування[ред.ред. код]

Класичним застосуванням гіпергеометричного розподілу є вибірка без повернення. Розглянемо урну з з двома типами куль: чорними і білими. Визначимо витягнення білої кульки як успіх, а чорної як невдачу. Якщо N є числом всіх кульок в урні, а D - число білих кульок, то N − D число чорних кульок.

Тепер припустимо, що в урні знаходиться 5 білих і 45 чорних кульок. Перебуваючи біля урни, ви закриваєте очі й витягуєте 10 кульок. Яка ймовірність того, що витягнуто рівно 4 білі кульки? Задача описується в наступній таблиці:

витягнуті не витягнуті завжди
білі кульки 4 (k) 1 = 5 − 4 (Dk) 5 (D)
чорні кульки 6 = 10 − 4 (nk) 39 = 50 + 4 − 10 − 5 (N + k − n − D) 45 (N − D)
всього 10 (n) 40 (N − n) 50 (N)

Ймовірність \mathbb{P} (k = x) того, що будуть витягнені рівно x білих кульок (= кількості успіхів), може бути обчисленою за формулою:

 \mathbb{P}(k=x) = f(k;N,D,n) = {{{D \choose k} {{N-D} \choose {n-k}}}\over {N \choose n}}.

Звідси в нашому прикладі (x = 4), отримаємо:

 \mathbb{P}(k=4) = f(4;50,5,10) = {{{5 \choose 4} {{45} \choose {6}}}\over {50 \choose 10}} = 0.003964583\dots.

Таким чином, ймовірність витягнути рівно 4 білі кульки досить мала (приблизно 0.004). Це означає , що при проведенні експеримента (витягненні 10 кульок з урни з 50 кульками без повернення) 1000 раз ми розраховуємо отримати вищезазначений результат 4 рази. Що стосується ймовірності витягнути 5 білих кульок, то інтуїтивно зрозуміло, що вона буде менша, ніж імовірність витягнути 4 білі кульки. Давайте підрахуємо цю ймовірність.

витягнуті не витягнуті всього
білі кульки 5 (k) 0 = 5 − 5 (D − k) 5 (D)
чорні кульки 5 = 10 − 5 (n − k) 40 = 50 + 5 − 10 − 5 (N + k − n − D) 45 (N − D)
всього 10 (n) 40 (N − n) 50 (N)

Таким чином, ми отримуємо ймовірність:

 \mathbb{P}(k=5) = f(5;50,5,10) = {{{5 \choose 5} {{45} \choose {5}}}\over {50 \choose 10}} = 0.0001189375\dots,

Симетричність[ред.ред. код]

 f(k;N,D,n) = {{{D \choose k} {{N-D} \choose {n-k}}}\over {N \choose n}} = f(n-k;N,N-D,n)

Ця симетричність стає зрозумілою, коли перефарбувати білі кульки в чорні й навпаки. Таким чином, білі й чорні кульки просто міняються ролями.

 f(k;N,D,n) = f(k;N,n,D)

Ця симетричність стає зрозумілою, коли замість виймання ви позначаєте кульки, які б вийняли. Обидва вирази дають ймовірність того, що рівно k кульок чорні й позначені як вийняті.


Зв'язок з іншими розподілами[ред.ред. код]

Нехай X \sim \mathrm{HG}(m,N,n) та p=m/N.

  • Нехай випадкова величина Y має біноміальний розподіл з параметрами n та p; вона моделює кількість успіхів в аналогічній задачі з поверненням. Коли N та m досить великі порівняно з n, а також p не є близьким до 0 чи 1 числом, тоді X та Y мають подібні розподіли, тобто \mathbb{P}(X \le k) \approx \mathbb{P}(Y \le k).
  • Якщо n велике, N та m великі порівняно з n, а p не є близьким до 0 чи 1, то

\mathbb{P}(X \le k) \approx \Phi \left( \frac{k-n p}{\sqrt{n p (1-p)}} \right),

де \Phi - функція розподілу стандартного нормального розподілу.

Bvn-small.png        Розподіли ймовірності
Одновимірні Багатовимірні
Дискретні: Бернуллі | біноміальний | геометричний | гіпергеометричний | логарифмічний | від'ємний біноміальний | Пуассона | рівномірний поліноміальний
Абсолютно неперервні: Бета | Вейбулла | Гамма | гіперекспоненційний | Колмогорова | Коші | Лапласа | Леві | логістичний | логнормальний | нормальний (Гауса) | Парето | рівномірний | Райса | Релея | Стьюдента | Фішера | хі-квадрат | експоненційний | багатовимірний нормальний