Взаємна інформація: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[неперевірена версія][перевірена версія]
Вилучено вміст Додано вміст
м →‎Література: -перекласти
замінено перекладом en:Mutual information: https://en.wikipedia.org/w/index.php?title=Mutual_information&oldid=727365331
Рядок 1: Рядок 1:
[[Файл:Entropy-mutual-information-relative-entropy-relation-diagram.svg|праворуч|міні|256x256пкс|[[Діаграма Венна]] різних мір інформації, пов'язаних із корельованими величинами X та Y. Область, яка міститься в обох колах, є спільною ентропією Η(X,Y). Коло ліворуч (червоний і фіолетовий) є особистою ентропією Η(X), в якому червоне є умовною ентропією Η(X|Y). Коло праворуч (синій та фіолетовий) є Η(Y), а синє в ньому є Η(Y|X). Фіолетове є взаємною інформацією I(X;Y).]]
{{Перекладаю}}


У [[Теорія ймовірностей|теорії ймовірностей]] та [[Теорія інформації|теорії інформації]] '''взає́мна інформа́ція''' ({{lang-en|mutual information, MI}}) двох [[Випадкова величина|випадкових величин]] — це міра взаємної залежності між цими двома величинами. Конкретніше, вона визначає «кількість інформації» (в таких одиницях, як [[Біт|біти]]), отримуваної про одну випадкову величину через іншу випадкову величину. Поняття взаємної інформації нерозривно пов'язане з [[Інформаційна ентропія|ентропією]] випадкової величини, фундаментальним поняттям теорії інформації, яке визначає «кількість інформації», яка міститься у випадковій величині.
'''Взаємна інформація''' — статистична функція двох випадкових величин, що описує кількість інформації, яка міститься в одній випадковій величині відносно іншої.


Не обмежуючись [[Дійсні числа|дійснозначними]] випадковими величинами, такими як [[коефіцієнт кореляції]], взаємна інформація є загальнішою, і визначає, наскільки подібним є [[спільний розподіл]] p(X,Y) до добутків розкладених [[Відособлений розподіл|відособлених розподілів]] p(X)p(Y). Взаємна інформація — це математичне сподівання {{нп|Поточкова взаємна інформація|поточкової взаємної інформації||Pointwise mutual information}} ({{lang-en|pointwise mutual information, PMI}}). Найпоширенішою [[Одиниця вимірювання|одиницею вимірювання]] взаємної інформації є [[біт]].
Взаємна інформація визначається через [[Інформаційна ентропія|ентропію]] та [[Умовна ентропія|умовну ентропію]] двох [[Випадкова величина|випадкових величин]] як
:: <math>I\left( {X;Y} \right) = H\left( X \right) - H\left( {X|Y} \right) = H\left( X \right) + H\left( Y \right) - H\left( {X,Y} \right)</math>


== Властивості взаємної інформації ==
== Визначення взаємної інформації ==


* Взаємна інформація є симетричною функцією випадкових величин:
Формально взаємну інформацію двох дискретних випадкових величин ''X'' та ''Y'' може бути визначено як
:: <math>I\left( {X;Y} \right) = I\left( {Y;X} \right)</math>
* Взаємна інформація невід'ємна і не перевищує [[Інформаційна ентропія|інформаційну ентропію]] арґументів:
:: <math>0 \le I\left( {X;Y} \right) \le \min \left[ H\left( X \right), H\left( Y \right) \right]</math>
Зокрема, для незалежних випадкових величин взаємна інформація дорівнює нулю:
:: <math> I\left( {X;Y} \right) = H \left( X \right) - H \left( X | Y \right) = H \left( X \right) - H \left( X \right) = 0</math>
У випадку, коли одна випадкова величина (наприклад, <math>X</math>) є визначеною функцією іншої випадкової величини (<math>Y</math>), взаємна інформація дорівнює ентропії:
:: <math> I\left( {X;Y} \right) = H \left( X \right) - H \left( X | Y \right) = H \left( X \right) - 0 = H \left( X \right)</math>


: <math> I(X;Y) = \sum_{y \in Y} \sum_{x \in X}
== Умовна і безумовна взаємна інформація ==
p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)}
\right) }, \,\!
</math>


де ''p''(''x'',''y'') є [[Спільний розподіл|функцією спільного розподілу ймовірностей]] ''X'' та ''Y'', а <math>p(x)</math> та <math>p(y)</math> є функціями [[Відособлений розподіл|відособлених розподілів імовірності]] ''X'' та ''Y'' відповідно.
'''Умовна взаємна інформація''' — статистична функція трьох випадкових величин, що описує кількість інформації, яка міститься в одній випадковій величині відносно іншої, за умови заданого значення третьої величини:
:: <math>I\left( {X;Y|Z = z} \right) = H\left( {X|Z = z} \right) - H\left( {X|Y,Z = z} \right) </math>


У випадку [[Неперервна функція|неперервних випадкових величин]] підсумовування замінюється визначеним [[Багатократний інтеграл|подвійним інтегралом]]:
'''Безумовна взаємна інформація''' — статистична функція трьох випадкових величин, що описує кількість інформації, що міститься в одній випадковій величині по відношенню до іншої, при умові заданої третьої випадкової величини:
:: <math>I\left( {X;Y|Z} \right) = H\left( {X|Z} \right) - H\left( {X|Y,Z} \right) </math>


: <math> I(X;Y) = \int_Y \int_X
=== Властивості ===
p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)}
\right) } \; dx \,dy,


</math>
* Умовна і безумовна взаємні інформації є симетричними:
:: <math>I\left( {X;Y | Z } \right) = I\left( {Y;X | Z } \right)</math>
:: <math>I\left( {X;Y | Z = z} \right) = I\left( {Y;X | Z = z} \right)</math>
* Задовільняють нерівностям:
:: <math>0 \le I\left( {X;Y | Z } \right) \le \min \left[ H \left( {X | Z } \right), H \left( {Y | Z } \right) \right]</math>
:: <math>0 \le I\left( {X;Y | Z = z} \right) \le \min \left[ H \left( {X | Z = z} \right), H \left( {Y | Z = z} \right) \right]</math>


де ''p''(''x'',''y'') тепер є функцією ''густини'' спільної ймовірності ''X'' та ''Y'', а <math>p(x)</math> та <math>p(y)</math> є функціями густини відособлених імовірностей ''X'' та ''Y'' відповідно.
== Література ==


Якщо застосовується [[логарифм]] за основою 2, то одиницею вимірювання взаємної інформації є [[біт]].
* Габидулин, Э. М., Пилипчук, Н.&nbsp;И.&nbsp;Лекции по теории информации.&nbsp;— М.: МФТИ, 2007.&nbsp;— 214 с.&nbsp;— ISBN 5-7417-0197-3


Інтуїтивно, взаємна інформація вимірює інформацію, яку поділяють ''X'' та ''Y'': вона вимірює, наскільки знання однієї з цих величин зменшує невизначеність щодо іншої. Наприклад, якщо ''X'' та ''Y'' є незалежними, то знання ''X'' не дає жодної інформації про ''Y'', і навпаки, тому їхня взаємна інформація дорівнює нулеві. З іншого боку, якщо ''X'' є детермінованою функцією від ''Y'', і ''Y'' є детермінованою функцією від ''X'', то вся інформація, яка передається ''X'', є спільною з ''Y'': знання ''X'' визначає значення ''Y'', і навпаки. В результаті, в цьому випадку взаємна інформація є тим же, що й невизначеність, яка міститься окремо в ''Y'' (або ''X''), а саме, [[Інформаційна ентропія|ентропією]] ''Y'' (або ''X''). Крім того, ця взаємна інформація є такою ж, як і ентропія ''X'' та як ентропія ''Y''. (Дуже особливим випадком цього є такий, коли ''X'' та ''Y'' є однією й тією ж випадковою величиною.)

Взаємна інформація є мірою притаманної залежності, вираженої в [[Спільний розподіл|спільному розподілі]] ''X'' та ''Y'', по відношенню до спільного розподілу ''X'' та ''Y'' за припущення незалежності.
Взаємна інформація відтак вимірює залежність у наступному сенсі: ''I''(''X''; ''Y'') = 0, [[Тоді й лише тоді|якщо і лише якщо]] ''X'' та ''Y'' є незалежними випадковими величинами. Це легко побачити в одному напрямку: якщо ''X'' та ''Y'' є незалежними, то ''p''(''x'',''y'') = ''p''(''x'') ''p''(''y''), і тому

: <math> \log{ \left( \frac{p(x,y)}{p(x)\,p(y)} \right) } = \log 1 = 0. \,\!
</math>

Крім того, взаємна інформація є невід'ємною (тобто, ''I''(''X'';''Y'')&#x20;≥&#x20;0; див. нижче) і {{нп|Симетрична функція|симетричною||Symmetric function}} (тобто, ''I''(''X'';''Y'') = ''I''(''Y'';''X'')).

== Відношення до інших величин ==

Взаємну інформацію може бути рівнозначно виражено як

: <math>
\begin{align}
I(X;Y) & {} = H(X) - H(X|Y) \\
& {} = H(Y) - H(Y|X) \\
& {} = H(X) + H(Y) - H(X,Y) \\
& {} = H(X,Y) - H(X|Y) - H(Y|X)
\end{align}
</math>

де <math>\ H(X)</math> та <math>\ H(Y)</math> є відособленими [[Інформаційна ентропія|ентропіями]], ''Η''(''X''|''Y'') та ''Η''(''Y''|''X'') є {{нп|Умовна ентропія|умовними ентропіями||Conditional entropy}}, а ''Η''(''X'',''Y'') є {{нп|Спільна ентропія|спільною ентропією||Joint entropy}} ''X'' та ''Y''. Зверніть увагу на аналогію з об'єднанням, різницею та перетином двох множин, яку показано в діаграмі Венна.

Застосовуючи [[нерівність Єнсена]] до визначення взаємної інформації, можна показати, що ''I''(''X'';''Y'') є невід'ємною, отже, <math>\ H(X) \ge H(X|Y)</math>. Тут ми наводимо докладне виведення I(X;Y) = Η(Y) – Η(Y|X):

: <math>
\begin{align}
I(X;Y) & {} = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}\\
& {} = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)} - \sum_{x,y} p(x,y) \log p(y) \\

& {} = \sum_{x,y} p(x)p(y|x) \log p(y|x) - \sum_{x,y} p(x,y) \log p(y) \\
& {} = \sum_x p(x) \left(\sum_y p(y|x) \log p(y|x)\right) - \sum_y \log p(y) \left(\sum_x p(x,y)\right) \\

& {} = -\sum_x p(x) H(Y|X=x) - \sum_y \log p(y) p(y) \\
& {} = -H(Y|X) + H(Y) \\
& {} = H(Y) - H(Y|X). \\
\end{align}
</math>

Доведення інших наведених вище тотожностей є схожими на це.

Інтуїтивно, якщо ентропія ''Η''(''Y'') розглядається як міра невизначеності випадкової величини, то ''Η''(''Y''|''X'') є мірою того, що ''X'' ''не'' каже стосовно ''Y''. Це є «кількістю невизначеності ''Y'', яка залишається після того, як стала відомою ''X''», і, отже, праву частину першого з цих рівнянь можна читати як «кількість невизначеності ''Y'' за вирахуванням кількості невизначеності ''Y'', яка залишається після того, як стала відомою ''X»'', що рівнозначно «кількість невизначеності ''Y'', яка усувається, коли стає відомою ''X''». Це підтримує інтуїтивне значення взаємної інформації як кількості інформації (тобто, зниження невизначеності), яке знання однієї з величин забезпечує стосовно іншої.

Зауважте, що в дискретному випадку ''Η''(''X''|''X'') = 0 і, отже, ''Η''(''X'') = ''I''(''X'';''X''). Таким чином, ''I''(''X'';''X'') ≥ ''I''(''X'';''Y''), і можна сформулювати основний принцип, що величина містить про себе щонайменше стільки ж інформації, скільки могла би забезпечити будь-яка інша величина.

Взаємну інформацію також може бути виражено як [[відстань Кульбака — Лейблера]] добутку ''p''(''x'') × ''p''(''y'') [[Відособлений розподіл|відособлених розподілів]] двох випадкових величин ''x'' та ''y'' від [[Спільний розподіл|спільного розподілу]] цих випадкових величин ''p''(''x'',''y''):

: <math> I(X;Y) = D_{\mathrm{KL}}(p(x,y)\|p(x)p(y)). </math>

Крім того, нехай ''p''(''x''|''y'') = ''p''(''x'', ''y'') / ''p''(''y''). Тоді

: <math>
\begin{align}
I(X;Y) & {} = \sum_y p(y) \sum_x p(x|y) \log_2 \frac{p(x|y)}{p(x)} \\
& {} = \sum_y p(y) \; D_{\mathrm{KL}}(p(x|y)\|p(x)) \\
& {} = \mathbb{E}_Y\{D_{\mathrm{KL}}(p(x|y)\|p(x))\}.
\end{align}
</math>

Зауважте, що тут відстань Кульбака — Лейблера передбачає інтегрування лише за випадковою величиною ''X'', і вираз <math>D_{\mathrm{KL}}(p(x|y)\|p(x))</math> тепер є випадковою величиною в ''Y''. Таким чином, взаємну інформацію можна також розуміти як [[математичне сподівання]] відстані Кульбака — Лейблера {{нп|Одновимірний розподіл|одновимірного розподілу||Univariate distribution}} ''p''(''X'') величини ''X'' від [[Умовний розподіл|умовного розподілу]] ''p''(''x''|''y'') величини ''X'' відносно ''Y'': що більш відмінними в середньому є розподіли ''p''(''x''|''y'') та ''p''(''x''), то більшим є [[Відстань Кульбака — Лейблера|приріст інформації]].

== Варіації взаємної інформації ==

Для задоволення різних потреб було запропоновано кілька варіацій взаємної інформації. Серед них є нормалізовані варіанти та узагальнення до понад двох величин.

=== Метрика ===

Багато застосувань вимагають {{нп|Метрика (математика)|метрики||Metric (mathematics)}}, тобто міри відстань між парами точок. Величина

: <math>d(X,Y) = H(X,Y) - I(X;Y) = H(X) + H(Y) - 2I(X;Y) = H(X|Y) + H(Y|X)</math>

задовольняє властивості метрики ([[нерівність трикутника]], {{нп|невід'ємність|||Non-negative}}, {{нп|Ідентичність нерозрізнюваних|нерозрізнюваність||Identity of indiscernibles}} та симетрію). Ця метрика відстані також відома як {{нп|різновидність інформації|||Variation of information}}.

Якщо <math>X, Y</math> є дискретними випадковими величинами, то всі члени ентропії є невід'ємними, тому <math>0 \le d(X,Y) \le H(X,Y)</math> і можна визначити унормовану відстань

: <math>D(X,Y) = d(X,Y)/H(X,Y) \le 1.</math>

Метрика ''D'' є універсальною метрикою, в тому сенсі, що якщо будь-яка інша міра відстані розмістить ''X'' та ''Y'' поруч, то й ''D'' також розглядатиме їх як близькі.<ref>{{Cite arXiv|eprint=q-bio/0311039|last1=Kraskov|first1=Alexander|title=Hierarchical Clustering Based on Mutual Information|last2=Stögbauer|first2=Harald|last3=Andrzejak|first3=Ralph G.|last4=Grassberger|first4=Peter|year=2003}} {{ref-en}}</ref>{{сумнівно|дата=червень 2016}}

Підключення визначень показує, що

: <math>D(X,Y) = 1 - I(X;Y)/H(X,Y).</math>

У теоретико-множинній інтерпретації інформації (див. малюнок в {{нп|Умовна ентропія|умовній ентропії||Conditional entropy}}) це є фактично [[Коефіцієнт Жаккара|відстанню Жаккара]] між ''X'' та ''Y''.

Нарешті,

: <math>D^\prime(X,Y)=1-\frac{I(X;Y)}{\max(H(X),H(Y))}</math>

також є метрикою.

=== Умовна взаємна інформація ===
{{Докладніше1|{{нп|Умовна взаємна інформація|||Conditional mutual information}}}}

Іноді корисно виражати взаємну інформацію двох випадкових величин відносно третьої.

: <math>I(X;Y|Z) = \mathbb E_Z \big(I(X;Y)|Z\big)
= \sum_{z\in Z} \sum_{y\in Y} \sum_{x\in X}
p_Z(z) p_{X,Y|Z}(x,y|z) \log \frac{p_{X,Y|Z}(x,y|z)}{p_{X|Z}(x|z)p_{Y|Z}(y|z)},</math>

що може бути спрощено як

: <math>I(X;Y|Z) = \sum_{z\in Z} \sum_{y\in Y} \sum_{x\in X}
p_{X,Y,Z}(x,y,z) \log \frac{p_Z(z)p_{X,Y,Z}(x,y,z)}{p_{X,Z}(x,z)p_{Y,Z}(y,z)}.</math>

Обумовлювання третьою випадковою величиною може збільшувати або зменшувати взаємну інформацію, але завжди залишається істинним те, що

: <math>I(X;Y|Z) \ge 0</math>

для дискретних спільно розподілених випадкових величин ''X'', ''Y'' та ''Z''. Цей результат застосовувався як основний будівельний блок для доведення інших {{нп|Нерівності в теорії інформації|нерівностей в теорії інформації||Inequalities in information theory}}.

=== Багатовимірна взаємна інформація ===
{{Докладніше1|{{нп|Багатовимірна взаємна інформація|||Multivariate mutual information}}}}

Було запропоновано декілька узагальнень взаємної інформації для понад двох випадкових величин, такі як {{нп|повна кореляція|||Total correlation}} та {{нп|інформація взаємодії|||Interaction information}}. Якщо розглядати ентропію Шеннона як {{нп|Знакова міра|знакову міру||Signed measure}} в контексті {{нп|Інформаційна діаграма|інформаційних діаграм|||Information diagram}}, як описано в статті «{{нп|Теорія інформації та теорія міри|||Information theory and measure theory}}», то єдиним визначенням багатовимірної взаємної інформації, яке має сенс,{{Citation needed|дата=червень 2016}} є наступне:

: <math>I(X_1;X_1) = H(X_1)</math>

і для <math>n > 1</math>

: <math>I(X_1;\,...\,;X_n) = I(X_1;\,...\,;X_{n-1}) - I(X_1;\,...\,;X_{n-1}|X_n),</math>

де (як вище) ми визначаємо

: <math>I(X_1;\,...\,;X_{n-1}|X_n) = \mathbb E_{X_n} \big(I(X_1;\,...\,;X_{n-1})|X_n\big).</math>

(Це визначення багатовимірної взаємної інформації є ідентичним визначенню {{нп|Інформація взаємодії|інформації взаємодії||Interaction information}}, за виключенням зміни знаку, коли число випадкових величин є непарним.)

==== Застосування ====

Сліпе застосування інформаційних схем для виведення вищевказаного визначення{{Citation needed|дата=червень 2016}} зазнавало критики,{{чиєї|дата=червень 2016}} і дійсно, воно знайшло досить обмежене практичне застосування, оскільки важко уявити або зрозуміти значення цієї кількості для великого числа випадкових величин. Вона може бути нульовою, додатною або від'ємною для будь-якого <math>n \ge 3.</math>

Одна зі схем багатовимірного узагальнення, яка максимізує взаємну інформацію між спільним розподілом та іншими цільовими величинами, виявилася корисною у [[Вибір ознак|виборі ознак]].<ref>{{Cite book|title=An Introduction to Information Retrieval|year=2008|publisher=[[Cambridge University Press]]|isbn=0-521-86571-9|author1=Christopher D. Manning|author2=Prabhakar Raghavan|author3=Hinrich Schütze}} {{ref-en}}</ref>

Взаємна інформація також застосовується в галузі обробки сигналів як міра схожості двох сигналів. Наприклад, метрика взаємної інформації ознак ({{lang-en|FMI, feature mutual information}})<ref>{{Cite document|last1=Haghighat|first1=M. B. A.|last2=Aghagolzadeh|first2=A.|last3=Seyedarabi|first3=H.|year=2011|title=A non-reference image fusion metric based on mutual information of image features|doi=10.1016/j.compeleceng.2011.07.012|journal=Computers & Electrical Engineering|volume=37|issue=5|pages=744–756}} {{ref-en}}</ref> — це міра продуктивності злиття зображень, яка застосовує взаємну інформацію для вимірювання кількості інформації, яку злите зображення містить про первинні зображення. Код [[MATLAB]] для цієї метрики можна знайти за адресою&nbsp;<ref>http://www.mathworks.com/matlabcentral/fileexchange/45926-feature-mutual-information-fmi-image-fusion-metric</ref>.

=== Унормовані варіанти ===

Унормовані варіанти взаємної інформації забезпечуються ''коефіцієнтами обмеження'',{{sfn|Coombs|Dawes|Tversky|1970}} {{нп|Коефіцієнт невизначеності|коефіцієнтом невизначеності||Uncertainty coefficient}}<ref name="pressflannery">{{Cite book|title=Numerical Recipes: The Art of Scientific Computing|last2=Teukolsky|first2=SA|last3=Vetterling|first3=WT|last4=Flannery|first4=BP|year=2007|publisher=Cambridge University Press|edition=3rd|chapter=Section 14.7.3. Conditional Entropy and Mutual Information|isbn=978-0-521-88068-8|ref=harv|last1=Press|first1=WH|publication-place=New York|chapter-url=http://apps.nrbook.com/empanel/index.html#pg=758}} {{ref-en}}</ref>
або вправністю ({{lang-en|proficiency}}):<ref name="JimWhite">{{Cite document|last1=White|first1=Jim|last2=Steingold|first2=Sam|last3=Fournelle|first3=Connie|title=Performance Metrics for Group-Detection Algorithms|conference=Interface 2004|url=http://www.interfacesymposia.org/I04/I2004Proceedings/WhiteJim/WhiteJim.paper.pdf}} {{ref-en}}</ref>

: <math>
C_{XY}=\frac{I(X;Y)}{H(Y)} ~~~~</math> і <math>~~~~ C_{YX}=\frac{I(X;Y)}{H(X)}.
</math>

Ці два коефіцієнти не обов'язково дорівнюють один одному. В деяких випадках може бути бажаною симетрична міра, така як наступна міра ''надлишковості'' ({{lang-en|redundancy}}):<sup class="noprint Inline-Template Template-Fact" style="white-space:nowrap;">&#x5B;''<span title="This claim needs references to reliable sources. (July 2008)">ред.</span>''&#x5D;</sup>

: <math>R= \frac{I(X;Y)}{H(X)+H(Y)}</math>

яка досягає нульового мінімуму, коли величини є незалежними, і максимального значення

: <math>R_{\max }=\frac{\min (H(X),H(Y))}{H(X)+H(Y)} </math>

коли одна з величин стає абсолютно надлишковою при знанні іншої. Див. також ''[[Надмірність інформації|надлишковість (теорія інформації)]]''. Іншою симетричною мірою є ''симетрична невизначеність'' (Віттен & Френк 2005), яка задається як

: <math>U(X,Y) = 2R = 2\frac{I(X;Y)}{H(X)+H(Y)}</math>

що являє собою зважене усереднення двох коефіцієнтів невизначеності.<ref name="pressflannery" />

Якщо розглядати взаємну інформацію як окремий випадок {{нп|Повна кореляція|повної кореляції||Total correlation}} або {{нп|Двоїста повна кореляція|двоїстої повної кореляції||Dual total correlation}}, то унормованими версіями відповідно є

: <math>\frac{I(X;Y)}{\min\left[ H(X),H(Y)\right]}</math> і <math>\frac{I(X;Y)}{H(X,Y)} \; .</math>

Нарешті, існує унормування,<ref name="strehl-jmlr02">{{Citation|title=Cluster Ensembles – A Knowledge Reuse Framework for Combining Multiple Partitions|url=http://www.jmlr.org/papers/volume3/strehl02a/strehl02a.pdf|year=2002|last1=Strehl|last2=Ghosh|first1=Alexander|first2=Joydeep|journal=The Journal of Machine Learning Research|volume=3|issue=Dec|pages=583–617}} {{ref-en}}</ref> яке випливає з першого розгляду взаємної інформації як аналогу [[Коваріація|коваріації]] (таким чином [[Інформаційна ентропія|ентропії Шеннона]] є аналогом [[Дисперсія випадкової величини|дисперсії]]). Потім унормована взаємна інформація розраховується подібно до [[Коефіцієнт кореляції Пірсона|коефіцієнту кореляції Пірсона]],

: <math>
\frac{I(X;Y)}{\sqrt{H(X)H(Y)}}\; .
</math>

=== Зважені варіанти ===

В традиційному формулюванні взаємної інформації

: <math> I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log \frac{p(x,y)}{p(x)\,p(y)}, </math>

кожна ''подія'' чи ''об'єкт'', вказані як <math>(x,y)</math>, зважуються відповідною ймовірністю <math>p(x,y)</math>. Це передбачає, що всі об'єкти або події є рівнозначними ''без врахування'' ймовірностей їх настання. Проте в деяких застосуваннях може бути так, що певні об'єкти або події є більш ''значущими'', ніж інші, або що деякі шаблони зв'язків є семантично важливішими за інші.

Наприклад, детерміноване відображення <math>\{(1,1),(2,2),(3,3)\}</math> може розглядатися як сильніше за детерміноване відображення <math>\{(1,3),(2,1),(3,2)\}</math>, хоча ці відношення видадуть однакову взаємну інформацію. Це відбувається тому, що взаємна інформація взагалі не чутлива до жодного природного впорядкування значень величин ({{harvnb|Cronbach|1954}}, {{harvnb|Coombs|Dawes|Tversky|1970}}, {{harvnb|Lockhead|1970}}), і тому взагалі не чутлива до '''форми''' відносного відображення між зв'язаними величинами. Якщо бажано, щоби перше відношення — яке показує узгодженість за всіма значеннями величин — оцінювалося вище, ніж друге відношення, то можна використовувати наступну ''зважену взаємну інформацію'' {{harv|Guiasu|1977}}.

: <math> I(X;Y) = \sum_{y \in Y} \sum_{x \in X} w(x,y) p(x,y) \log \frac{p(x,y)}{p(x)\,p(y)}, </math>

яка поміщає вагу <math>w(x,y)</math> на імовірність кожного збігу значень величин, <math>p(x,y)</math>. Це дозволяє робити так, щоби деякі ймовірності могли нести більше або менше важливості за інші, тим самим дозволяючи кількісно виразити відповідні чинники ''цілісності'' ({{lang-en|holistic}}) або ''виразності'' ({{lang-de|prägnanz}}). У наведеному вище прикладі застосування більших відносних ваг для <math>w(1,1)</math>, <math>w(2,2)</math> і <math>w(3,3)</math> матиме ефект вищої оцінки ''інформативності'' для відношення <math>\{(1,1),(2,2),(3,3)\}</math>, ніж для відношення <math>\{(1,3),(2,1),(3,2)\}</math>, що може бути бажаним в деяких випадках розпізнавання образів тощо. Ця зважена взаємна інформація є вираженням зваженої відстані Кульбака — Лейблера, яка, як відомо, може набувати від'ємних значень для деяких входів,<ref name="weighted-kl">{{Cite document|last1=Kvålseth|first1=T. O.|year=1991|title=The relative useful information measure: some comments|url=|journal=Information sciences|volume=56|issue=1|pages=35–38|doi=10.1016/0020-0255(91)90022-m}} {{ref-en}}</ref> і є приклади, де зважена взаємна інформація також набуває від'ємних значень.<ref><cite class="citation thesis">Pocock, A. (2012). [http://academy.bcs.org/sites/academy.bcs.org/files/DD_Adam%20Pocock.pdf Feature Selection Via Joint Likelihood] (PDF) (Thesis). </cite> {{ref-en}}</ref>

=== Скоригована взаємна інформація ===
{{Докладніше1|{{нп|Скоригована взаємна інформація|||Adjusted mutual information}}}}

Розподіл імовірності можна розглядати як [[розбиття множини]]. Можна запитати: якщо множину було розбито випадковим чином, яким буде розподіл імовірностей? Яким буде математичне сподівання взаємної інформації? {{нп|Скоригована взаємна інформація|||Adjusted mutual information}} ({{lang-en|adjusted mutual information, AMI}}) віднімає математичне сподівання взаємної інформації таким чином, що вона дорівнює нулеві, коли два різних розподіли носять випадковий характер, і одиниці, коли два розподіли збігаються. Скоригована взаємна інформація визначається за аналогією зі {{нп|Скоригований індекс Ренда|скоригованим індексом Ренда||Adjusted Rand index}} двох різних розбиттів множини.

=== Абсолютна взаємна інформація ===

З допомогою ідей [[Складність та ентропія конструктивних об'єктів|колмогоровської складності]] можна розглядати взаємну інформацію двох послідовностей незалежно від будь-якого розподілу ймовірностей:

: <math>
I_K(X;Y) = K(X) - K(X|Y).
</math>

Встановлення того, що ця величина є симетричною з точністю до логарифмічного множника (<math>I_K(X;Y) \approx I_K(Y;X)</math>), потребує {{нп|Ланцюгове правило для колмогоровської складності|ланцюгового правила для колмогоровскої складності||Chain rule for Kolmogorov complexity}} {{Harvard citation|Li|Vitányi|1997}}.
Наближення цієї величини через [[Стиснення даних|стиснення]] може може застосовуватися для визначення {{нп|Міра відстані|міри відстані||Metric (mathematics)}} для виконання [[Ієрархічна кластеризація|ієрархічного кластерування]] послідовностей без жодного знання про [[Предметна область|предметну область]] цих послідовностей {{Harvard citation|Cilibrasi|2005}}.

=== Взаємна інформація та лінійна кореляція ===
На відміну від коефіцієнтів кореляції, наприклад, [[Коефіцієнт кореляції Пірсона|коефіцієнту кореляції моменту добутку]], взаємна інформація містить інформацію про всю залежність — лінійну і нелінійну, — а не просто про лінійну залежність, як міри коефіцієнтів кореляції. Тим не менш, у вузькому випадку, в якому [[Відособлений розподіл|відособлені розподіли]] для ''X'' та ''Y'' розподілені нормально, і їхній [[спільний розподіл]] є [[Багатовимірний нормальний розподіл|двовимірним нормальним розподілом]], існує точний взаємозв'язок між ''I'' та коефіцієнтом кореляції <math>\rho</math> {{harv|Гельфанд|Яглом|1957}}.

: <math>
I = -\frac{1}{2} \log(1-\rho^2)
</math>

=== Взаємна інформація для дискретних даних ===

Коли ''X'' та ''Y'' обмежено перебуванням у дискретному числі станів, то дані спостережень підсумовуються до {{нп|Таблиця спряженості|таблиці спряженості||Contingency table}} зі змінною рядків ''X'' (або ''i'') та змінною стовпців ''Y'' (або ''j'').
Взаємна інформація є однією з мір {{нп|Асоційовність (статистика)|асоційовності||Association (statistics)}} або [[Кореляція|кореляції]] між змінними рядків і стовпців. Інші міри асоційовності включають [[Статистика (математика)|статистики]] [[Критерій узгодженості Пірсона|критерію хі-квадрат Пірсона]], статистики {{нп|G-критерій|''G''-критерію||G-test}} тощо. Фактично,
взаємна інформація дорівнює статистиці {{нп|G-критерій|''G''-критерію||G-test}}, поділеній на 2N, де N є
розміром вибірки.

В особливому випадку, коли числом станів для змінних як рядків, так і стовпців є 2 (''i'',''j''=1,2), числом {{нп|Ступені свободи (статистика)|ступенів свободи||Degrees of freedom (statistics)}} [[Критерій узгодженості Пірсона|критерію хі-квадрат Пірсона]] є 1. З чотирьох доданків суми

: <math> \sum_{i,j } p_{ij} \log \frac{p_{ij}}{p_i p_j }</math>

незалежним є лише один. Це є причиною того, що функція взаємної інформації має точний зв'язок з [[Кореляційна функція|кореляційною функцією]] <math> p_{X=1, Y=1}-p_{X=1}p_{Y=1}</math>для [[Двійкова система числення|двійкових]] послідовностей.<ref>{{Cite document|author=Wentian Li|title=Mutual information functions versus correlation functions|journal=J. Stat. Phys.|volume=60|issue=5-6|pages=823–837|year=1990|doi=10.1007/BF01025996|url=}} {{ref-en}}</ref>

== Застосування взаємної інформації ==
В багатьох застосуваннях потрібно максимізувати взаємну інформацію (тим самим збільшуючи взаємозалежність), що часто рівнозначне мінімізації {{нп|Умовна ентропія|умовної ентропії||Conditional entropy}}. До прикладів належать:
* У {{нп|Технологія пошукових рушіїв|технології пошукових рушіїв||Search engine technology}} взаємна інформація між фразами та контекстами використовується як ознака для [[Кластеризація методом к–середніх|кластерування методом ''k''-середніх]] для виявлення семантичних кластерів ([[Поняття|понять]]).<ref name="magerman">[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.78.4178&rep=rep1&type=pdf Parsing a Natural Language Using Mutual Information Statistics] by David M. Magerman and Mitchell P. Marcus {{ref-en}}</ref>
* У [[Телекомунікації|телекомунікаціях]] [[пропускна спроможність каналу]] дорівнює взаємній інформації, максимізованій над усіма вхідними розподілами.
* Було запропоновано процедури [[Розрізнювальна модель|розрізнювального навчання]] для [[Прихована марковська модель|прихованих марковських моделей]] на основі критерію {{нп|Максимальна взаємна інформація|максимальної взаємної інформації||Maximum mutual information}} ({{lang-en|maximum mutual information, MMI}}).
* Передбачування {{нп|Вторинна структура нуклеїнової кислоти|вторинної структури РНК||Nucleic acid secondary structure}} з {{нп|Множинне вирівнювання послідовностей|множинного вирівнювання послідовностей||Multiple sequence alignment}}.
* Передбачування {{нп|Філогенетичне профілювання|філогенетичного профілювання||Phylogenetic profiling}} з попарної присутності або відсутності функціонально пов'язаних [[Ген|генів]].
* Взаємна інформація застосовувалася у [[Машинне навчання|машинному навчанні]] як критерій для [[Вибір ознак|вибору ознак]] та перетворень ознак. Її можна застосовувати для характеризування як доречності, так і надлишковості змінних, як у {{нп|Вибір ознак за мінімальною надлишковістю|виборі ознак за мінімальною надлишковістю||Minimum redundancy feature selection}}.
* Взаємна інформація використовується у визначенні подібності двох різних [[Кластерний аналіз|кластерувань]] набору даних. Як така, вона пропонує деякі переваги над традиційним [[:en:Rand_index|індексом Ренда]].
* Взаємна інформація слів часто використовується як функція значущості для обчислення {{нп|Колокація (лінгвістика)|колокації||Collocation}} в [[Корпусна лінгвістика|корпусній лінгвістиці]]. Це має додаткову складність в тому, що жоден випадок слова не є випадком для двох різних слів; швидше, рахують випадки, в яких 2 слова трапляються суміжно або в безпосередній близькості; це дещо ускладнює розрахунок, оскільки очікувана ймовірність трапляння одного слова в межах N слів від іншого росте з N.
* Взаємна інформація застосовується в [[Медична візуалізація|медичній візуалізації]] для [[Реєстрація зображень|зіставлення зображень]]. Для заданого еталонного зображення (наприклад, результату сканування мозку) та другого зображення, яке потрібно покласти до тієї ж [[Система координат|системи координат]], що й еталонне зображення, це зображення деформується доти, доки взаємну інформацію між ним та еталонним зображенням не буде максимізовано.
* Виявлення [[Синхронізація коливань|фазової синхронізації]] в аналізі [[Часовий ряд|часових рядів]].
* Метод {{нп|інформакс|||Infomax}} для [[Штучна нейронна мережа|нейронних мереж]] та іншого машинного навчання, включно з алгоритмом {{нп|Метод незалежних компонент|методу незалежних компонент||Independent component analysis}} на основі інфомаксу.
* В {{нп|Теорема про вкладення із затримками|теоремі про вкладення із затримками||Delay embedding theorem}} взаємна інформація використовується для визначення параметру ''вкладальної затримки''.
* Взаємна інформація між [[Ген|генами]] в даних [[:en:Microarray|експресійних мікрочіпів]] використовується алгоритмом {{нп|ARACNE}} для відбудови {{нп|Генна регуляторна мережа|генних мереж||Gene regulatory network}}.
* В термінах взаємної інформації може бути виражено {{нп|парадокс Лошмідта|||Loschmidt's paradox}} у [[Статистична механіка|статистичній механіці]].<ref name="everett56">Hugh Everett [http://www.pbs.org/wgbh/nova/manyworlds/pdf/dissertation.pdf Theory of the Universal Wavefunction], Thesis, Princeton University, (1956, 1973), pp 1–140 (page 30) {{ref-en}}</ref><ref name="everett57">{{Cite document|last1=Everett|first1=Hugh|authorlink=Х'ю Еверетт|year=1957|title=Relative State Formulation of Quantum Mechanics|url=http://www.univer.omsk.su/omsk/Sci/Everett/paper1957.html|journal=Reviews of Modern Physics|volume=29|issue=|pages=454–462|doi=10.1103/revmodphys.29.454}} {{ref-en}}</ref> Лошмідт зазначив, що може бути неможливим визначити фізичний закон, позбавлений [[Зворотність|зворотності]] (наприклад, [[другий закон термодинаміки]]), лише з таких фізичних законів, які цю зворотність мають. Він вказав, що в {{нп|Η-теорема|Η-теоремі||H-theorem}} [[Людвіг Больцман|Больцмана]] було зроблено припущення, що швидкості частинок в газі були постійно некорельованими, що усунуло природну зворотність в ній. Може бути показано, що якщо систему описано густиною ймовірності у [[Фазовий простір|фазовому просторі]], то з [[Теорема Ліувілля про збереження фазового об'єму|теореми Ліувілля]] випливає, що спільна інформація (від'ємна спільна ентропія) розподілу залишається сталою в часі. Спільна інформація дорівнює взаємній інформації плюс сума всіх відособлених інформацій (від'ємних відособлених ентропій) для координат кожної з частинок. Припущення Больцмана рівнозначне ігноруванню взаємної інформації в обчисленні ентропії, що дає в результаті [[Ентропія|термодинамічну ентропію]] (ділену на [[Стала Больцмана|сталу Больцмана]]).
* Взаємна інформація використовується для навчання структури [[Баєсова мережа|баєсових мереж]]/[[Динамічна баєсова мережа|динамічних баєсових мереж]], які пояснюють причинно-наслідковий зв'язок між випадковими величинами, прикладом чого може слугувати інструментарій GlobalMIT навчання глобально оптимальної динамічної баєсової мережі з критерієм взаємної інформації ({{lang-en|Mutual Information Test, MIT}}).<nowiki>[http://www.mathworks.com/matlabcentral/fileexchange/32428-globalmit-toolbox]</nowiki>
* Популярна функція витрат у {{нп|Навчання дерев рішень|навчанні дерев рішень||Decision tree learning}}.

== Див. також ==
* {{нп|Поточкова взаємна інформація|||Pointwise mutual information}}
* {{нп|Квантова взаємна інформація|||Quantum mutual information}}

== Примітки ==

{{Примітки}}

== Джерела ==
* {{Cite document|last1=Cilibrasi|first1=R.|first2=Paul|last2=Vitányi|title=Clustering by compression|journal=IEEE Transactions on Information Theory|volume=51|issue=4|pages=1523–1545|year=2005|url=http://www.cwi.nl/~paulv/papers/cluster.pdf|format=[[PDF]]|doi=10.1109/TIT.2005.844059|ref=harv}} {{ref-en}}
* {{Cite book|last1=Cronbach|first1=L. J.|year=1954|chapter=On the non-rational application of information measures in psychology|editor1-first=Henry|editor1-last=Quastler|editor1-link=Генрі Куостлер|title=Information Theory in Psychology: Problems and Methods|publisher=Free Press|place=Glencoe, Illinois|pages=14–30|ref=harv}} {{ref-en}}
* {{Cite book|title=Mathematical Psychology: An Elementary Introduction|year=1970|publisher=Prentice-Hall|location=Englewood Cliffs, New Jersey|last1=Coombs|first1=C. H.|last2=Dawes|first2=R. M.|last3=Tversky|first3=A.|ref=harv}} {{ref-en}}
* {{Cite document|first1=Kenneth Ward|last1=Church|first2=Patrick|last2=Hanks|title=Word association norms, mutual information, and lexicography|journal=Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics|year=1989|doi=10.1145/90000/89095|doi-broken-date=2016-01-30}} {{ref-en}}
* {{Cite document|first1=И.&nbsp;М.|last1=Гельфанд|first2=А.&nbsp;М.|last2=Яглом|year=1957|title=О вычислении количества информации о случайной функции, содержащейся в другой такой функции|journal=Успехи математических наук|volume=12|issue=1(73)|pages=3–52|url=http://www.mathnet.ru/php/getFT.phtml?jrnid=rm&paperid=7522&what=fullt&option_lang=rus|ref=harv}} {{ref-ru}}
* {{Cite book|title=Information Theory with Applications|year=1977|publisher=McGraw-Hill, New York|isbn=978-0-07-025109-0|last=Guiasu|first=Silviu|ref=harv}} {{ref-en}}
* {{Cite book|title=An introduction to Kolmogorov complexity and its applications|last1=Li|first1=Ming|date=February 1997|publisher=[[Springer-Verlag]]|location=New York|isbn=0-387-94868-6|first2=Paul|last2=Vitányi|ref=harv}} {{ref-en}}
* {{Cite document|last1=Lockhead|first1=G. R.|year=1970|title=Identification and the form of multidimensional discrimination space|url=|journal=Journal of Experimental Psychology|volume=85|issue=1|pages=1–10|doi=10.1037/h0029508|pmid=5458322|ref=harv}} {{ref-en}}
* David J. C. MacKay. ''[http://www.inference.phy.cam.ac.uk/mackay/itila/book.html Information Theory, Inference, and Learning Algorithms]'' Cambridge: Cambridge University Press, 2003. [[:en:Special:BookSources/0521642981|ISBN 0-521-64298-1]] (available free online) {{ref-en}}
* {{Cite document|last1=Haghighat|first1=M. B. A.|last2=Aghagolzadeh|first2=A.|last3=Seyedarabi|first3=H.|year=2011|title=A non-reference image fusion metric based on mutual information of image features|url=|journal=Computers & Electrical Engineering|volume=37|issue=5|pages=744–756|doi=10.1016/j.compeleceng.2011.07.012}} {{ref-en}}
* Athanasios Papoulis. ''Probability, Random Variables, and Stochastic Processes'', second edition. New York: McGraw-Hill, 1984. ''(See Chapter 15.)'' {{ref-en}}
* {{Cite book|url=http://www.cs.waikato.ac.nz/~ml/weka/book.html|title=Data Mining: Practical Machine Learning Tools and Techniques|year=2005|publisher=Morgan Kaufmann, Amsterdam|isbn=978-0-12-374856-0|author1=Witten, Ian H.|author2=Frank, Eibe|lastauthoramp=yes}} {{ref-en}}
* {{Cite document|author=Peng, H.C., Long, F., and Ding, C.|title=Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=27|issue=8|pages=1226–1238|year=2005|url=http://research.janelia.org/peng/proj/mRMR/index.htm|doi=10.1109/tpami.2005.159|pmid=16119262}} CS1 maint: Multiple names: authors list (link) {{ref-en}}
* {{Cite document|author1=Andre S. Ribeiro|author2=Stuart A. Kauffman|author3=Jason Lloyd-Price|author4=Bjorn Samuelsson|author5=Joshua Socolar|last-author-amp=yes|year=2008|title=Mutual Information in Random Boolean models of regulatory networks|journal=Physical Review E|volume=77|issue=1|arxiv=0707.3642|doi=10.1103/physreve.77.011901}} {{ref-en}}
* {{Cite document|last1=Wells|first1=W.M. III|last2=Viola|first2=P.|last3=Atsumi|first3=H.|last4=Nakajima|first4=S.|last5=Kikinis|first5=R.|title=Multi-modal volume registration by maximization of mutual information|journal=Medical Image Analysis|volume=1|issue=1|pages=35–51|year=1996|pmid=9873920|doi=10.1016/S1361-8415(01)80004-9|url=http://www.ai.mit.edu/people/sw/papers/mia.pdf|format=[[PDF]]|ref=harv}} {{ref-en}}

== Література ==


* Габидулин, Э. М., Пилипчук, Н.&nbsp;И.&nbsp;Лекции по теории информации.&nbsp;— М.: МФТИ, 2007.&nbsp;— 214 с.&nbsp;— ISBN 5-7417-0197-3 {{ref-ru}}
{{math-stub}}


[[Категорія:Теорія інформації]]
[[Категорія:Теорія інформації]]
[[Категорія:Ентропія й інформація]]

Версія за 14:22, 28 червня 2016

Діаграма Венна різних мір інформації, пов'язаних із корельованими величинами X та Y. Область, яка міститься в обох колах, є спільною ентропією Η(X,Y). Коло ліворуч (червоний і фіолетовий) є особистою ентропією Η(X), в якому червоне є умовною ентропією Η(X|Y). Коло праворуч (синій та фіолетовий) є Η(Y), а синє в ньому є Η(Y|X). Фіолетове є взаємною інформацією I(X;Y).

У теорії ймовірностей та теорії інформації взає́мна інформа́ція (англ. mutual information, MI) двох випадкових величин — це міра взаємної залежності між цими двома величинами. Конкретніше, вона визначає «кількість інформації» (в таких одиницях, як біти), отримуваної про одну випадкову величину через іншу випадкову величину. Поняття взаємної інформації нерозривно пов'язане з ентропією випадкової величини, фундаментальним поняттям теорії інформації, яке визначає «кількість інформації», яка міститься у випадковій величині.

Не обмежуючись дійснозначними випадковими величинами, такими як коефіцієнт кореляції, взаємна інформація є загальнішою, і визначає, наскільки подібним є спільний розподіл p(X,Y) до добутків розкладених відособлених розподілів p(X)p(Y). Взаємна інформація — це математичне сподівання поточкової взаємної інформації (англ. pointwise mutual information, PMI). Найпоширенішою одиницею вимірювання взаємної інформації є біт.

Визначення взаємної інформації

Формально взаємну інформацію двох дискретних випадкових величин X та Y може бути визначено як

де p(x,y) є функцією спільного розподілу ймовірностей X та Y, а  та  є функціями відособлених розподілів імовірності X та Y відповідно.

У випадку неперервних випадкових величин підсумовування замінюється визначеним подвійним інтегралом:

де p(x,y) тепер є функцією густини спільної ймовірності X та Y, а та  є функціями густини відособлених імовірностей X та Y відповідно.

Якщо застосовується логарифм за основою 2, то одиницею вимірювання взаємної інформації є біт.

Інтуїтивно, взаємна інформація вимірює інформацію, яку поділяють X та Y: вона вимірює, наскільки знання однієї з цих величин зменшує невизначеність щодо іншої. Наприклад, якщо X та Y є незалежними, то знання X не дає жодної інформації про Y, і навпаки, тому їхня взаємна інформація дорівнює нулеві. З іншого боку, якщо X є детермінованою функцією від Y, і Y є детермінованою функцією від X, то вся інформація, яка передається X, є спільною з Y: знання X визначає значення Y, і навпаки. В результаті, в цьому випадку взаємна інформація є тим же, що й невизначеність, яка міститься окремо в Y (або X), а саме, ентропією Y (або X). Крім того, ця взаємна інформація є такою ж, як і ентропія X та як ентропія Y. (Дуже особливим випадком цього є такий, коли X та Y є однією й тією ж випадковою величиною.)

Взаємна інформація є мірою притаманної залежності, вираженої в спільному розподілі X та Y, по відношенню до спільного розподілу X та Y за припущення незалежності. Взаємна інформація відтак вимірює залежність у наступному сенсі: I(X; Y) = 0, якщо і лише якщо X та Y є незалежними випадковими величинами. Це легко побачити в одному напрямку: якщо X та Y є незалежними, то p(x,y) = p(x) p(y), і тому

Крім того, взаємна інформація є невід'ємною (тобто, I(X;Y) ≥ 0; див. нижче) і симетричною (тобто, I(X;Y) = I(Y;X)).

Відношення до інших величин

Взаємну інформацію може бути рівнозначно виражено як

де та  є відособленими ентропіями, Η(X|Y) та Η(Y|X) є умовними ентропіями, а Η(X,Y) є спільною ентропією X та Y. Зверніть увагу на аналогію з об'єднанням, різницею та перетином двох множин, яку показано в діаграмі Венна.

Застосовуючи нерівність Єнсена до визначення взаємної інформації, можна показати, що I(X;Y) є невід'ємною, отже, . Тут ми наводимо докладне виведення I(X;Y) = Η(Y) – Η(Y|X):

Доведення інших наведених вище тотожностей є схожими на це.

Інтуїтивно, якщо ентропія Η(Y) розглядається як міра невизначеності випадкової величини, то Η(Y|X) є мірою того, що X не каже стосовно Y. Це є «кількістю невизначеності Y, яка залишається після того, як стала відомою X», і, отже, праву частину першого з цих рівнянь можна читати як «кількість невизначеності Y за вирахуванням кількості невизначеності Y, яка залишається після того, як стала відомою , що рівнозначно «кількість невизначеності Y, яка усувається, коли стає відомою X». Це підтримує інтуїтивне значення взаємної інформації як кількості інформації (тобто, зниження невизначеності), яке знання однієї з величин забезпечує стосовно іншої.

Зауважте, що в дискретному випадку Η(X|X) = 0 і, отже, Η(X) = I(X;X). Таким чином, I(X;X) ≥ I(X;Y), і можна сформулювати основний принцип, що величина містить про себе щонайменше стільки ж інформації, скільки могла би забезпечити будь-яка інша величина.

Взаємну інформацію також може бути виражено як відстань Кульбака — Лейблера добутку p(x) × p(y) відособлених розподілів двох випадкових величин x та y від спільного розподілу цих випадкових величин p(x,y):

Крім того, нехай p(x|y) = p(x, y) / p(y). Тоді

Зауважте, що тут відстань Кульбака — Лейблера передбачає інтегрування лише за випадковою величиною X, і вираз тепер є випадковою величиною в Y. Таким чином, взаємну інформацію можна також розуміти як математичне сподівання відстані Кульбака — Лейблера одновимірного розподілу[en] p(X) величини X від умовного розподілу p(x|y) величини X відносно Y: що більш відмінними в середньому є розподіли p(x|y) та p(x), то більшим є приріст інформації.

Варіації взаємної інформації

Для задоволення різних потреб було запропоновано кілька варіацій взаємної інформації. Серед них є нормалізовані варіанти та узагальнення до понад двох величин.

Метрика

Багато застосувань вимагають метрики, тобто міри відстань між парами точок. Величина

задовольняє властивості метрики (нерівність трикутника, невід'ємність, нерозрізнюваність[en] та симетрію). Ця метрика відстані також відома як різновидність інформації[en].

Якщо  є дискретними випадковими величинами, то всі члени ентропії є невід'ємними, тому  і можна визначити унормовану відстань

Метрика D є універсальною метрикою, в тому сенсі, що якщо будь-яка інша міра відстані розмістить X та Y поруч, то й D також розглядатиме їх як близькі.[1][сумнівно ]

Підключення визначень показує, що

У теоретико-множинній інтерпретації інформації (див. малюнок в умовній ентропії) це є фактично відстанню Жаккара між X та Y.

Нарешті,

також є метрикою.

Умовна взаємна інформація

Детальніші відомості з цієї теми ви можете знайти в статті Умовна взаємна інформація[en].

Іноді корисно виражати взаємну інформацію двох випадкових величин відносно третьої.

що може бути спрощено як

Обумовлювання третьою випадковою величиною може збільшувати або зменшувати взаємну інформацію, але завжди залишається істинним те, що

для дискретних спільно розподілених випадкових величин X, Y та Z. Цей результат застосовувався як основний будівельний блок для доведення інших нерівностей в теорії інформації[en].

Багатовимірна взаємна інформація

Детальніші відомості з цієї теми ви можете знайти в статті Багатовимірна взаємна інформація[en].

Було запропоновано декілька узагальнень взаємної інформації для понад двох випадкових величин, такі як повна кореляція[en] та інформація взаємодії[en]. Якщо розглядати ентропію Шеннона як знакову міру[en] в контексті інформаційних діаграм[en], як описано в статті «Теорія інформації та теорія міри[en]», то єдиним визначенням багатовимірної взаємної інформації, яке має сенс,[джерело?] є наступне:

і для 

де (як вище) ми визначаємо

(Це визначення багатовимірної взаємної інформації є ідентичним визначенню інформації взаємодії[en], за виключенням зміни знаку, коли число випадкових величин є непарним.)

Застосування

Сліпе застосування інформаційних схем для виведення вищевказаного визначення[джерело?] зазнавало критики,[чиєї?] і дійсно, воно знайшло досить обмежене практичне застосування, оскільки важко уявити або зрозуміти значення цієї кількості для великого числа випадкових величин. Вона може бути нульовою, додатною або від'ємною для будь-якого

Одна зі схем багатовимірного узагальнення, яка максимізує взаємну інформацію між спільним розподілом та іншими цільовими величинами, виявилася корисною у виборі ознак.[2]

Взаємна інформація також застосовується в галузі обробки сигналів як міра схожості двох сигналів. Наприклад, метрика взаємної інформації ознак (англ. FMI, feature mutual information)[3] — це міра продуктивності злиття зображень, яка застосовує взаємну інформацію для вимірювання кількості інформації, яку злите зображення містить про первинні зображення. Код MATLAB для цієї метрики можна знайти за адресою [4].

Унормовані варіанти

Унормовані варіанти взаємної інформації забезпечуються коефіцієнтами обмеження,[5] коефіцієнтом невизначеності[en][6] або вправністю (англ. proficiency):[7]

і

Ці два коефіцієнти не обов'язково дорівнюють один одному. В деяких випадках може бути бажаною симетрична міра, така як наступна міра надлишковості (англ. redundancy):[ред.]

яка досягає нульового мінімуму, коли величини є незалежними, і максимального значення

коли одна з величин стає абсолютно надлишковою при знанні іншої. Див. також надлишковість (теорія інформації). Іншою симетричною мірою є симетрична невизначеність (Віттен & Френк 2005), яка задається як

що являє собою зважене усереднення двох коефіцієнтів невизначеності.[6]

Якщо розглядати взаємну інформацію як окремий випадок повної кореляції[en] або двоїстої повної кореляції[en], то унормованими версіями відповідно є

і

Нарешті, існує унормування,[8] яке випливає з першого розгляду взаємної інформації як аналогу коваріації (таким чином ентропії Шеннона є аналогом дисперсії). Потім унормована взаємна інформація розраховується подібно до коефіцієнту кореляції Пірсона,

Зважені варіанти

В традиційному формулюванні взаємної інформації

кожна подія чи об'єкт, вказані як , зважуються відповідною ймовірністю . Це передбачає, що всі об'єкти або події є рівнозначними без врахування ймовірностей їх настання. Проте в деяких застосуваннях може бути так, що певні об'єкти або події є більш значущими, ніж інші, або що деякі шаблони зв'язків є семантично важливішими за інші.

Наприклад, детерміноване відображення може розглядатися як сильніше за детерміноване відображення , хоча ці відношення видадуть однакову взаємну інформацію. Це відбувається тому, що взаємна інформація взагалі не чутлива до жодного природного впорядкування значень величин (Cronbach, 1954, Coombs, Dawes та Tversky, 1970, Lockhead, 1970), і тому взагалі не чутлива до форми відносного відображення між зв'язаними величинами. Якщо бажано, щоби перше відношення — яке показує узгодженість за всіма значеннями величин — оцінювалося вище, ніж друге відношення, то можна використовувати наступну зважену взаємну інформацію (Guiasu, 1977).

яка поміщає вагу  на імовірність кожного збігу значень величин, . Це дозволяє робити так, щоби деякі ймовірності могли нести більше або менше важливості за інші, тим самим дозволяючи кількісно виразити відповідні чинники цілісності (англ. holistic) або виразності (нім. prägnanz). У наведеному вище прикладі застосування більших відносних ваг для , і матиме ефект вищої оцінки інформативності для відношення , ніж для відношення , що може бути бажаним в деяких випадках розпізнавання образів тощо. Ця зважена взаємна інформація є вираженням зваженої відстані Кульбака — Лейблера, яка, як відомо, може набувати від'ємних значень для деяких входів,[9] і є приклади, де зважена взаємна інформація також набуває від'ємних значень.[10]

Скоригована взаємна інформація

Детальніші відомості з цієї теми ви можете знайти в статті Скоригована взаємна інформація[en].

Розподіл імовірності можна розглядати як розбиття множини. Можна запитати: якщо множину було розбито випадковим чином, яким буде розподіл імовірностей? Яким буде математичне сподівання взаємної інформації? Скоригована взаємна інформація[en] (англ. adjusted mutual information, AMI) віднімає математичне сподівання взаємної інформації таким чином, що вона дорівнює нулеві, коли два різних розподіли носять випадковий характер, і одиниці, коли два розподіли збігаються. Скоригована взаємна інформація визначається за аналогією зі скоригованим індексом Ренда[en] двох різних розбиттів множини.

Абсолютна взаємна інформація

З допомогою ідей колмогоровської складності можна розглядати взаємну інформацію двох послідовностей незалежно від будь-якого розподілу ймовірностей:

Встановлення того, що ця величина є симетричною з точністю до логарифмічного множника (), потребує ланцюгового правила для колмогоровскої складності[en] (Li та Vitányi, 1997). Наближення цієї величини через стиснення може може застосовуватися для визначення міри відстані для виконання ієрархічного кластерування послідовностей без жодного знання про предметну область цих послідовностей (Cilibrasi, 2005).

Взаємна інформація та лінійна кореляція

На відміну від коефіцієнтів кореляції, наприклад, коефіцієнту кореляції моменту добутку, взаємна інформація містить інформацію про всю залежність — лінійну і нелінійну, — а не просто про лінійну залежність, як міри коефіцієнтів кореляції. Тим не менш, у вузькому випадку, в якому відособлені розподіли для X та Y розподілені нормально, і їхній спільний розподіл є двовимірним нормальним розподілом, існує точний взаємозв'язок між I та коефіцієнтом кореляції (Гельфанд та Яглом, 1957).

Взаємна інформація для дискретних даних

Коли X та Y обмежено перебуванням у дискретному числі станів, то дані спостережень підсумовуються до таблиці спряженості зі змінною рядків X (або i) та змінною стовпців Y (або j). Взаємна інформація є однією з мір асоційовності або кореляції між змінними рядків і стовпців. Інші міри асоційовності включають статистики критерію хі-квадрат Пірсона, статистики G-критерію[en] тощо. Фактично, взаємна інформація дорівнює статистиці G-критерію[en], поділеній на 2N, де N є розміром вибірки.

В особливому випадку, коли числом станів для змінних як рядків, так і стовпців є 2 (i,j=1,2), числом ступенів свободи критерію хі-квадрат Пірсона є 1. З чотирьох доданків суми

незалежним є лише один. Це є причиною того, що функція взаємної інформації має точний зв'язок з кореляційною функцією для двійкових послідовностей.[11]

Застосування взаємної інформації

В багатьох застосуваннях потрібно максимізувати взаємну інформацію (тим самим збільшуючи взаємозалежність), що часто рівнозначне мінімізації умовної ентропії. До прикладів належать:

Див. також

Примітки

  1. Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (2003). Hierarchical Clustering Based on Mutual Information. arXiv:q-bio/0311039. (англ.)
  2. Christopher D. Manning; Prabhakar Raghavan; Hinrich Schütze (2008). An Introduction to Information Retrieval. Cambridge University Press. ISBN 0-521-86571-9. (англ.)
  3. Haghighat, M. B. A.; Aghagolzadeh, A.; Seyedarabi, H. (2011). A non-reference image fusion metric based on mutual information of image features. Computers & Electrical Engineering. 37 (5): 744—756. doi:10.1016/j.compeleceng.2011.07.012. (англ.)
  4. http://www.mathworks.com/matlabcentral/fileexchange/45926-feature-mutual-information-fmi-image-fusion-metric
  5. Coombs, Dawes та Tversky, 1970.
  6. а б Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). Section 14.7.3. Conditional Entropy and Mutual Information. Numerical Recipes: The Art of Scientific Computing (вид. 3rd). New York: Cambridge University Press. ISBN 978-0-521-88068-8. (англ.)
  7. White, Jim; Steingold, Sam; Fournelle, Connie. Performance Metrics for Group-Detection Algorithms (PDF). (англ.)
  8. Strehl, Alexander; Ghosh, Joydeep (2002), Cluster Ensembles – A Knowledge Reuse Framework for Combining Multiple Partitions (PDF), The Journal of Machine Learning Research, 3 (Dec): 583—617 (англ.)
  9. Kvålseth, T. O. (1991). The relative useful information measure: some comments. Information sciences. 56 (1): 35—38. doi:10.1016/0020-0255(91)90022-m. (англ.)
  10. Pocock, A. (2012). Feature Selection Via Joint Likelihood (PDF) (Thesis). (англ.)
  11. Wentian Li (1990). Mutual information functions versus correlation functions. J. Stat. Phys. 60 (5-6): 823—837. doi:10.1007/BF01025996. (англ.)
  12. Parsing a Natural Language Using Mutual Information Statistics by David M. Magerman and Mitchell P. Marcus (англ.)
  13. Hugh Everett Theory of the Universal Wavefunction, Thesis, Princeton University, (1956, 1973), pp 1–140 (page 30) (англ.)
  14. Everett, Hugh (1957). Relative State Formulation of Quantum Mechanics. Reviews of Modern Physics. 29: 454—462. doi:10.1103/revmodphys.29.454. (англ.)

Джерела

Література

  • Габидулин, Э. М., Пилипчук, Н. И. Лекции по теории информации. — М.: МФТИ, 2007. — 214 с. — ISBN 5-7417-0197-3 (рос.)