Кількості інформації

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Проста інформаційна діаграма[en], що показує адитивні та різницеві відношення серед шеннонових базових кількостей інформації для корельованих змінних та . Область, яка міститься в обох колах, є спільною ентропією . Коло ліворуч (червоний і фіолетовий) є особистою ентропією , в якому червоне є умовною ентропією . Коло праворуч (синій та фіолетовий) є , а синє в ньому є . Фіолетове є взаємною інформацією .

Математична теорія інформації ґрунтується на теорії ймовірності й статистиці, і вимірює інформацію за допомогою декількох кількостей інформації (англ. quantities of information). Застосовувану в наступних формулах одиницю інформаційної ентропії визначає вибір логарифмічної основи. Найзвичнішою одиницею інформації є біт, що ґрунтується на двійковому логарифмі. До інших одиниць належать нат, що ґрунтується на натуральному логарифмі, та гартлі, що ґрунтується на десятковому логарифмі.

Надалі вираз вигляду , коли є нулем, вважається за згодою рівним нулеві. Це є виправданим, оскільки для будь-якої логарифмічної основи .

Власна інформація

Шеннон вивів міру інформаційного вмісту, названу власною інформацією (англ. self-information) або «несподіваністю» (англ. "surprisal") повідомлення :

де є ймовірністю обрання повідомлення з усіх можливих варіантів вибору в просторі повідомлень . Основа логарифму впливає лише на коефіцієнт масштабування, і, відтак, на одиниці, в яких виражається вимірюваний інформаційний вміст. Якщо основою логарифму є 2, то міра інформації виражається в одиницях бітів.

Інформація передається з джерела до отримувача лише якщо отримувач цієї інформації ще не мав її заздалегідь. Повідомлення, які передають інформацію, що відбувається напевно, і вже відома отримувачеві, реальної інформації не містять. Повідомлення, що трапляються нечасто, містять більше інформації, ніж повідомлення, які трапляються частіше. Цей факт віддзеркалено в наведеному вище рівнянні — незмінне повідомлення, тобто, з імовірністю 1, має нульову міру інформації. Крім того, складене повідомлення з двох (або більше) не пов'язаних (або взаємно незалежних) повідомлень матиме міру інформації, яка є сумою мір інформації кожного з повідомлень окремо. Цей факт також віддзеркалено в наведеному вище рівнянні, що підтверджує обґрунтованість його виведення.

Приклад. Повідомлення прогнозу погоди: «Прогноз на ніч: Темно. Тривала темрява, аж до широко розсіяного світла вранці.» Це повідомлення майже не містить інформації. Проте прогноз хуртовини безумовно міститиме інформацію, оскільки таке не трапляється щовечора. Величина інформації буде ще більшою в точному прогнозі снігу для теплого місця, такого як Маямі. Величина інформації в прогнозі снігу для місця, де сніг не йде ніколи (неможлива подія), є найвищою (нескінченність).

Ентропія

Ентропія (англ. entropy) дискретного простору повідомлень є мірою величини невизначеності (англ. uncertainty), що ми маємо стосовно того, яке повідомлення буде обрано. Її визначено як усереднену власну інформацію повідомлення з цього простору повідомлень:

де

позначує операцію математичного сподівання (англ. expected value).

Важливою властивістю ентропії є те, що вона є найбільшою, коли всі повідомлення в просторі повідомлень є рівноймовірними (тобто, ). В цьому випадку .

Іноді функцію виражають в термінах імовірностей розподілу:

де кожна та

Важливим особливим випадком цього є функція двійкової ентропії[en]:

Спільна ентропія

Спільну ентропію (англ. joint entropy) двох дискретних випадкових змінних та визначають як ентропію їхнього спільного розподілу:

Якщо та є незалежними, то ця спільна ентропія є просто сумою їхніх окремих ентропій.

(Зауваження: Спільну ентропію не слід плутати з перехресною ентропією, незважаючи на подібний запис.)

Умовна ентропія (ухильність)

За заданого конкретного значення випадкової змінної умовну ентропію за визначено як

де є умовною ймовірністю за заданого .

Умовну ентропію (англ. conditional entropy) за заданого , що також називають ухильністю (англ. equivocation) від , задають як

Вона використовує умовне математичне сподівання з теорії імовірності.

Базовою властивістю умовної ентропії є те, що

Відстань Кульбака — Лейблера (приріст інформації)

Відстань Кульбака — Лейблера (або розходження інформації, приріст інформації, або відносна ентропія, англ. Kullback–Leibler divergence, information divergence, information gain, relative entropy) є способом порівнювання двох розподілів, «істинного» розподілу ймовірності та довільного розподілу ймовірності . Якщо ми стискаємо дані таким чином, який передбачає, що є розподілом, що лежить в основі якихось даних, тоді як насправді правильним розподілом є , то відстань Кульбака — Лейблера є числом усереднених додаткових бітів над рівнем, необхідних для стискання, або, математично,

В якомусь сенсі вона дійсно є «відстанню» від до , хоча вона й не є справжньою метрикою через те, що вона не є симетричною.

Взаємна (передавана) інформація

Виявляється, що однією з найкорисніших та найважливіших мір інформації є взаємна інформація (англ. mutual information), або передавана інформація (англ. transinformation). Вона є мірою того, як багато інформації може бути отримано про одну випадкову змінну шляхом спостерігання іншої. Взаємну інформацію відносно (яка концептуально представляє усереднену величину інформації про , яку можна здобути спостеріганням ) задають як

Основною властивістю взаємної інформації є те, що

Тобто, знаючи , ми можемо заощадити в середньому бітів у кодуванні , у порівнянні з незнанням . Взаємна інформація є симетричною:

Взаємну інформацію можливо виразити як усереднену відстань Кульбака — Лейблера (приріст інформації) апостеріорного розподілу ймовірності за заданого значення відносно апріорного розподілу ймовірності :

Іншими словами, вона є мірою того, наскільки в середньому зміниться розподіл ймовірності , якщо ми отримаємо значення . Обчислюють її часто як розходження між добутком відособлених розподілів та справжнім спільним розподілом:

Взаємна інформація є тісно пов'язаною з перевіркою логарифмічним відношенням правдоподібностей в контексті таблиць спряженості та мультиноміального розподілу, та з критерієм χ2 Пірсона: взаємну інформацію можливо розглядати як статистику для оцінювання незалежності в парі змінних, і вона має добре визначений асимптотичний розподіл.

Диференціальна ентропія

Основні міри дискретної ентропії було аналогічно розширено на неперервні простори шляхом заміни сум інтегралами, та функцій маси ймовірності функціями густини ймовірності. І хоча в обох випадках взаємна інформація виражає число бітів інформації, спільне для цих двох джерел, ця аналогія не передбачає однакових властивостей: наприклад, диференціальна ентропія може бути від'ємною.

Диференціальні аналоги ентропії, спільної ентропії, умовної ентропії та взаємної інформації визначено таким чином:

де є функцією густини спільного розподілу, та є відособленими розподілами, а є умовним розподілом.

Див. також