Умовна ентропія

Діаграма Венна, що показує адитивні та різницеві відношення серед різних мір інформації, пов'язаних із корельованими змінними $X$ та $Y$ . Область, яка міститься в обох колах, є спільною ентропією $\mathrm {H} (X,Y)$ . Коло ліворуч (червоний і фіолетовий) є особистою ентропією $\mathrm {H} (X)$ , в якому червоне є умовною ентропією $\mathrm {H} (X|Y)$ . Коло праворуч (синій та фіолетовий) є $\mathrm {H} (Y)$ , а синє в ньому є $\mathrm {H} (Y|X)$ . Фіолетове є взаємною інформацією $\operatorname {I} (X;Y)$ .

В теорії інформації умо́вна ентропі́я (або ухи́льність, англ. conditional entropy, equivocation) — це оцінка кількості інформації, необхідної, щоб описати вихід випадкової змінної $Y$ , враховуючи, що значення іншої випадкової змінної $X$ є відомим. Тут інформація вимірюється в шеннонах, натах або гартлі. Ентропія $Y$ , обумовлена $X$ записується як $\mathrm {H} (Y|X)$ .

Означення[ред. | ред. код]

Нехай $\mathrm {H} (Y|X=x)$ є ентропією дискретної випадкової змінної $Y$ , обумовленою набуванням дискретною випадковою змінною $X$ певного значення $x$ . Нехай $Y$ має функцію маси ймовірності $p_{Y}{(y)}$ . Безумовна ентропія $Y$ обчислюється як $\mathrm {H} (Y):=\mathbb {E} [\operatorname {I} (Y)]$ , тобто,

\mathrm {H} (Y)=\sum _{i=1}^{n}{\mathrm {Pr} (Y=y_{i})\,\mathrm {I} (y_{i})}=-\sum _{i=1}^{n}{p_{Y}(y_{i})\log _{2}{p_{Y}(y_{i})}},

де $\operatorname {I} (y_{i})$ є інформаційним вмістом набування результатом^[en] $Y$ значення $y_{i}$ . Ентропію $Y$ , обумовлену набуванням випадковою змінною $X$ значення $x$ , визначено аналогічно до умовного математичного сподівання:

\mathrm {H} (Y|X=x)=\mathbb {E} [\operatorname {I} (Y)|X=x]=-\sum _{i=1}^{n}{\Pr(Y=y_{i}|X=x)\log _{2}{\Pr(Y=y_{i}|X=x)}}.

$\mathrm {H} (Y|X)$ є результатом усереднювання $\mathrm {H} (Y|X=x)$ над усіма можливими значеннями $x$ , що їх може набувати $X$ .

Для заданих дискретних випадкових змінних $X$ з носієм ${\mathcal {X}}$ та $Y$ з носієм ${\mathcal {Y}}$ умовну ентропію $Y$ відносно $X$ визначають як зважену суму $\mathrm {H} (Y|X=x)$ для кожного з можливих значень $x$ із застосуванням $p(x)$ як вагових коефіцієнтів:^[1]^:15

{\begin{aligned}\mathrm {H} (Y|X)\ &\equiv \sum _{x\in {\mathcal {X}}}\,p(x)\,\mathrm {H} (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p(y|x)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\,p(x,y)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}.\\&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}.\\\end{aligned}}

Примітка: Зрозуміло, що вирази $0\log 0$ та $0\log c/0$ для фіксованих $c>0$ слід вважати рівними нулеві.

Властивості[ред. | ред. код]

Нульова умовна ентропія[ред. | ред. код]

$\mathrm {H} (Y|X)=0$ якщо і лише якщо значення $Y$ повністю визначається значенням $X$ .

Умовна ентропія незалежних випадкових змінних[ред. | ред. код]

І навпаки, $\mathrm {H} (Y|X)=\mathrm {H} (Y)$ якщо і лише якщо $Y$ та $X$ є незалежними випадковими змінними.

Ланцюгове правило[ред. | ред. код]

Припустімо, що об'єднана система, яку визначають дві випадкові змінні $X$ та $Y$ , має спільну ентропію $\mathrm {H} (X,Y)$ , тобто, нам потрібно в середньому $\mathrm {H} (X,Y)$ біт інформації, щоби описати її точний стан. Тепер, якщо ми спочатку дізналися значення $X$ , ми отримали $\mathrm {H} (X)$ біт інформації. Щойно $X$ стало відомим, нам потрібно лише $\mathrm {H} (X,Y)-\mathrm {H} (X)$ біт, щоб описати стан системи в цілому. Ця величина в точності дорівнює $\mathrm {H} (Y|X)$ , що дає нам ланцюгове правило умовної ентропії:

\mathrm {H} (Y|X)\,=\,\mathrm {H} (X,Y)-\mathrm {H} (X).

^[1]^:17

Ланцюгове правило випливає з вищенаведеного означення умовної ентропії:

{\begin{aligned}\mathrm {H} (Y|X)&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \left({\frac {p(x)}{p(x,y)}}\right)\\[4pt]&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log(p(x,y))+\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}{p(x,y)\log(p(x))}\\[4pt]&=\mathrm {H} (X,Y)+\sum _{x\in {\mathcal {X}}}p(x)\log(p(x))\\[4pt]&=\mathrm {H} (X,Y)-\mathrm {H} (X).\end{aligned}}

В загальному випадку ланцюгове правило для декількох випадкових змінних стверджує, що

\mathrm {H} (X_{1},X_{2},\ldots ,X_{n})=\sum _{i=1}^{n}\mathrm {H} (X_{i}|X_{1},\ldots ,X_{i-1})

^[1]^:22

Воно має вигляд, подібний до ланцюгового правила в теорії ймовірностей, за винятком того, що замість множення використовується додавання.

Правило Баєса[ред. | ред. код]

Правило Баєса для умовної ентропії стверджує, що

\mathrm {H} (Y|X)\,=\,\mathrm {H} (X|Y)-\mathrm {H} (X)+\mathrm {H} (Y).

Доведення. $\mathrm {H} (Y|X)=\mathrm {H} (X,Y)-\mathrm {H} (X)$ і $\mathrm {H} (X|Y)=\mathrm {H} (Y,X)-\mathrm {H} (Y)$ . Через симетрію, $\mathrm {H} (X,Y)=\mathrm {H} (Y,X)$ . Віднімання цих двох рівнянь має наслідком правило Баєса.

Якщо $Y$ є умовно незалежною^[en] від $Z$ за заданої $X$ , то ми маємо

\mathrm {H} (Y|X,Z)\,=\,\mathrm {H} (Y|X).

Інші властивості[ред. | ред. код]

Для будь-яких $X$ та $Y$

{\begin{aligned}\mathrm {H} (Y|X)&\leq \mathrm {H} (Y)\,\\\mathrm {H} (X,Y)&=\mathrm {H} (X|Y)+\mathrm {H} (Y|X)+\operatorname {I} (X;Y),\qquad \\\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y)-\operatorname {I} (X;Y),\,\\\operatorname {I} (X;Y)&\leq \mathrm {H} (X),\,\end{aligned}}

де $\operatorname {I} (X;Y)$ є взаємною інформацією $X$ та $Y$ .

Для незалежних $X$ та $Y$

\mathrm {H} (Y|X)=\mathrm {H} (Y)

та

\mathrm {H} (X|Y)=\mathrm {H} (X)\,

Хоча конкретно-умовна ентропія $\mathrm {H} (X|Y=y)$ і може бути або меншою, або більшою за $\mathrm {H} (X)$ для заданої випадкової варіати^[en] $y$ змінної $Y$ , але $\mathrm {H} (X|Y)$ ніколи не може перевищувати $\mathrm {H} (X)$ .

Умовна диференціальна ентропія[ред. | ред. код]

Див. також: Теорія інформації

Означення[ред. | ред. код]

Наведене вище означення є для дискретних випадкових змінних, але в випадку неперервних випадкових змінних воно чинним не є. Неперервну версію дискретної умовної ентропії називають умовною диференціальною (або неперервною) ентропією (англ. conditional differential (continuous) entropy). Нехай $X$ та $Y$ є неперервними випадковими змінними з функцією густини спільної ймовірності^[en] $f(x,y)$ . Диференціальну умовну ентропію $h(X|Y)$ означують як

h(X|Y)=-\int _{{\mathcal {X}},{\mathcal {Y}}}f(x,y)\log f(x|y)\,dxdy

.^[1]^:249

Властивості[ред. | ред. код]

На противагу до умовної ентропії дискретних випадкових змінних, умовна диференціальна ентропія може бути від'ємною.

Як і в дискретному випадку, для диференціальної ентропії існує ланцюгове правило:

h(Y|X)\,=\,h(X,Y)-h(X)

^[1]^:253

Зауважте, проте, що це правило може не виконуватися, якщо залучені диференціальні ентропії не існують, або є нескінченними.

Спільну диференціальну ентропію також використано в означенні взаємної інформації між неперервними випадковими змінними:

\operatorname {I} (X,Y)=h(X)-h(X|Y)=h(Y)-h(Y|X)

$h(X|Y)\leq h(X)$ , з рівністю якщо і лише якщо $X$ та $Y$ є незалежними.^[1]^:253

Стосунок до похибки оцінювача[ред. | ред. код]

Умовна диференціальна ентропія дає нижню межу математичного сподівання квадратичної похибки оцінювача. Для будь-якої випадкової змінної $X$ , спостереження $Y$ та оцінювача ${\widehat {X}}$ виконується наступне:^[1]^:255

\mathbb {E} \left[{\bigl (}X-{\widehat {X}}{(Y)}{\bigr )}^{2}\right]\geq {\frac {1}{2\pi e}}e^{2h(X|Y)}

Це стосується принципу невизначеності в квантовій механіці.

Узагальнення до квантової теорії[ред. | ред. код]

У квантовій теорії інформації умовна ентропія узагальнюється до умовної квантової ентропії^[en]. Остання, на відміну від свого класичного аналога, може набувати від'ємних значень.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

↑ ^а ^б ^в ^г ^д ^е ^ж T. Cover; J. Thomas (1991). Elements of Information Theory. ISBN 0-471-06259-6. (англ.)

[cover1991-1] а ^б ^в ^г ^д ^е ^ж T. Cover; J. Thomas (1991). Elements of Information Theory. ISBN 0-471-06259-6. (англ.)

[1]

Умовна ентропія

Зміст

Означення[ред. | ред. код]