Відстань Кульбака — Лейблера

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Відстань Кульбака — Лейблера в теорії інформації і математичній статистиці — це міра того, наскільки відмінні між собою два ймовірнісних розподіли. Названа на честь американських математиків і криптоаналітиків Соломона Кульбака і Річарда Лейблера.

Визначення[ред.ред. код]

Дискретний розподіл[ред.ред. код]

Нехай дано дві дискретні випадкові величини  X, Y , визначені на множині  \mathcal {X} \subset \mathbb {R} , розподілами задаються функціями ймовірності  p і  q відповідно. Тоді відстань Кульбака — Лейблера  D_{KL} задається формулою:

 D_{KL} (p, q) = \sum \limits_ {x \in \mathcal {X}} p(x) \ln \frac {p (x)} {q (x)}.

Відстань Кульбака — Лейблера для цього випадку визначена лише тоді коли з p(x) > 0 випливає, що також і q(x) > 0.

Абсолютно неперервний розподіл[ред.ред. код]

Нехай дано дві абсолютно неперервні випадкові величини  X, Y , і їх розподіли задаються густинами ймовірності  p і  q відповідно. Тоді відстань Кульбака — Лейблера  D_ {KL} задається формулою:

 D_{KL} (p, q) = \int \limits_ {- \infty} ^ {\infty} p(x) \ln \frac {p (x)} {q (x)} \, dx.

Більш загально, якщо P і Q — ймовірнісні міри на множині X, і Q є абсолютно неперервною щодо P, тоді відстань Кульбака — Лейблера визначається як:

D_{KL} (P, Q)) = -\int_X \log \frac{{\rm d}Q}{{\rm d}P} \,{\rm d}P, \!

де \frac{{\rm d}Q}{{\rm d}P} є похідною Радона — Нікодима міри Q щодо міри P.

Властивості[ред.ред. код]

  • Відстань Кульбака - Лейблера, взагалі кажучи, не симетрична, тобто
 D_ {KL} (p, q) \neq D_ {KL} (q, p) .

Зокрема, воно не є метрикою на просторі розподілів ймовірностей.