Змішаний розподіл

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

У теорії ймовірності та статистиці змішаний розподіл (суміш, змішка, чи збиранина розподілів) — це розподіл ймовірностей випадкової величини, отриманий із набору інших випадкових величин наступним чином: спочатку випадкова змінна вибирається випадково з набору відповідно до заданих імовірностей вибору, а потім реалізується значення обраної випадкової величини. Випадкові змінні, що лежать в основі, можуть бути дійснозначними випадковими величинами або випадковими векторами (з однаковою розмірністюю), і в цьому випадку змішаний розподіл є багатовимірним розподілом.

У випадках, коли кожна з базових випадкових змінних є неперервною, кінцева змінна також буде неперервною, а її густину ймовірності іноді називають щільністю змішки. Кумулятивну функцію розподілуфункцію щільності ймовірності, якщо вона існує) можна виразити як опуклу комбінацію (тобто зважену суму з невід’ємними вагами, сума яких дорівнює 1) інших функцій розподілу та щільностей. Індивідуальні розподіли, які об’єднуються для формування змішки, називаються компонентами змішки, а ймовірності (або ваги), пов’язані з кожним компонентом, називаються вагами змішки. Кількість компонентів у суміші часто скінченна, хоча в деяких випадках кількість компонентів може бути нескінченною. Більш загальні випадки (тобто незліченний набір компонентних розподілів), а також зліченний випадок відомі під назвою складених розподілів.

Необхідно розрізняти випадкову величину, функція розподілу або щільність якої є сумою набору компонентів (тобто розподіл суміші), і випадкову величину, значення якої є сумою значень двох або більше базових випадкових змінних, у такому випадку розподіл задається згорткою. Як приклад, сума двох нормально розподілених випадкових величин, кожна з яких має різні середні значення, все одно матиме нормальний розподіл. З іншого боку, щільність змішки, створена як суміш двох нормальних розподілів з різними середніми, матиме два піки за умови, що два середні досить віддалені один від одного, показуючи, що цей розподіл дуже відрізняється від нормального розподілу.

Змішані розподіли виникають у багатьох контекстах у літературі та виникають природним чином там, де статистична сукупність містить дві або більше субпопуляції. Вони також іноді використовуються як засіб представлення ненормальних розподілів. Аналіз даних щодо статистичних моделей, що включають суміші розподілів, обговорюється під назвою моделі сумішей, тоді як ця стаття зосереджується на простих імовірнісних і статистичних властивостях сумішей розподілів і як вони пов’язані з властивостями базових розподілів.

Скінченні та злічені суміші[ред. | ред. код]

Дано скінченний набір густин ймовірності p 1 ( x ), ..., p n ( x ) або відповідних функцій розподілу P 1 ( x ), . . ., P n ( x ) і ваги w 1, ..., w n такі, що wi ≥ 0 і Σwi = 1, розподіл суміші можна представити записом або густини, f, або функції розподілу, F, як сума (яка в обох випадках є опуклою комбінацією):

Цей тип змішки, оскільки є скінченною сумою, називається скінченною змішкою, і на практиці коли кажуть «густина суміші (змішки)», то зазвичай мають на увазі скінченну суміш (змішку). Випадок зліченно нескінченної множини компонент формально розглядається просто вважаючи .

Незліченні змішки[ред. | ред. код]

Якщо набір компонентних розподілів є незліченним, результат часто називають змішаним розподілом ймовірностей. Побудова таких розподілів формально схожа з побудовою змішок, де нескінченні суми або інтеграли замінюють скінченними сумами у випадкку скінченних змішок.

Розглянемо щільність p(x; a) для змінної x, і параметром a. Тобто для кожного значення a в деякій множині A p(x;a ) є функцією щільності ймовірності відносно x. Для заданої функцію щільності w (тобто w - невід’ємна та інтегрується до 1), тоді функція

знову є функцією щільності ймовірності для x. Аналогічний інтеграл можна записати для функції розподілу. Зверніть увагу, що наведені тут формули зводяться до випадку скінченної або нескінченної змішки, якщо щільність w може бути узагальненою функцією, що представляє «похідну» кумулятивної функції розподілу дискретного розподілу.

Застосування[ред. | ред. код]

Щільності суміші — це складні щільності, які можна виразити за допомогою простіших щільностей (компонентів суміші), і використовуються як тому, що вони забезпечують гарне моделювання певних наборів даних (де різні підмножини даних демонструють різні характеристики, і їх найкраще моделювати окремо), так і тому що вони можуть бути більш піддатливими математично, тому що окремі компоненти суміші можна легше вивчити, ніж загальну щільність суміші.

Щільності суміші можна використовувати для моделювання статистичної генеральної сукупності з субпопуляціями, де компоненти суміші є щільністю субпопуляцій, а ваги — це частки кожної субсукупності в загальній сукупності.

Щільність суміші також можна використовувати для моделювання експериментальної помилки або збурення – вважають, що більшість зразків вимірюють бажане явище, а деякі зразки мають інший, помилковий розподіл.

Параметричні статистики, які припускають відсутність помилок, часто дають збій для таких густин суміші – наприклад, статистика, яка передбачає нормальність, часто катастрофічно непридатна за наявності навіть кількох викидів – і натомість використовується надійна статистика .

У мета-аналізі окремих досліджень неоднорідність дослідження призводить до того, що розподіл результатів є змішаним розподілом і призводить до надмірної дисперсії результатів відносно прогнозованої помилки. Наприклад, у статистичному дослідженні межа похибки (визначена розміром вибірки) передбачає похибку вибірки і, отже, дисперсію результатів повторних опитувань. Наявність неоднорідності дослідження (дослідження мають різну похибку вибірки ) збільшує дисперсію щодо межі похибки.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

Список літератури[ред. | ред. код]

  • Frühwirth-Schnatter, Sylvia (2006), Finite Mixture and Markov Switching Models, Springer, ISBN 978-1-4419-2194-9
  • Lindsay, Bruce G. (1995), Mixture models: theory, geometry and applications, NSF-CBMS Regional Conference Series in Probability and Statistics, т. 5, Hayward, CA, USA: Institute of Mathematical Statistics, ISBN 0-940600-32-3, JSTOR 4153184
  • Seidel, Wilfried (2010), Lovric, M. (ред.), Mixture models, International Encyclopedia of Statistical Science, Heidelberg: Springer: 827—829, arXiv:0909.0389, doi:10.1007/978-3-642-04898-2, ISBN 978-3-642-04898-2