Інформаційна ентропія
Інформаційна ентропія — в теорії інформації, ентропія є мірою невизначеності випадкової величини. Зазвичай, в якості інформаційної ентропії використовують ентропію Шеннона.
Ентропія Шеннона визначає абсолютну межу найкращого стиснення даних без втрат: розглядаючи повідомлення як послідовність незалежних та однаково розподілених випадкових величин, теорема Шеннона про кодування доводить, що в границі середня довжина найкоротшого можливого представлення закодованого повідомлення в заданому алфавіті дорівнює ентропії поділеній на логарифм кількості символів у вихідному алфавіті.
Зміст |
Історія [ред.]
У 1946 американський вчений-статистик Джон Тьюкі запропонував назву БІТ (BIT - абревіатура від BInary digiT), одне з головних понять XX століття. Тьюки обрав біт для позначення одного двійкового розряду, здатного приймати значення 0 або 1. Шеннон використав біт як одиницю виміру інформації. Мірою кількості інформації Шеннон запропонував вважати функцію, названу ним ентропією.
Нехай повідомлення - осмислене українською мовою. Шеннон зауважив, що при передачі різних букв ми передаємо різну кількість інформації. Якщо ми передаємо букви, що часто зустрічаються, то інформації менше; при передачі рідкісних букв - більше. Це видно при кодуванні букв алфавіту азбукою Морзе. Найчастіші літери передаються коротко, а для рідкісних використовують більш довгі ланцюжки. Так, буква «Е» кодується однією точкою «.», а рідкісна «Ш» - чотирма тире «----» (це найдовша послідовність на букву в азбуці Морзе).
Кількість інформації на букву пов'язано з частотою вживань цієї букви у всіх повідомленнях, які формуються на мові. Чим більше рідкісну букву ми передаємо, тим більше в ній інформації.
Ентропія - міра непередбачуваності. Це поняття Шеннон взяв із статистичної термодинаміки. Нехай імовірність i-того символу алфавіту, що складається з n символів (міра частоти, з якою зустрічається символ у всіх повідомленнях мови), дорівнює pi.
Шеннон пише: «Величина H грає центральну роль в теорії інформації як міра кількості інформації, можливості вибору і невизначеності». Кількість інформації, що передається в повідомленні, тісно пов'язане з мірою невизначеності, або непередбачуваності переданих символів.
Визначення [ред.]
Ентропія
(за основою
) джерела інформації
обчислюється за формулою:[1]
де
— ймовірність отримання символу
,
— кількість символів в алфавіті.
Найчастіше за основу вибирається число 2. В такому випадку інформаційна ентропія збігається з числом бітів, яким можна закодувати інформацію. Наприклад, якщо однакова ймовірність запису в комірці пам'яті одиниці або нуля (ці дві цифри складають алфавіт), тоді
.
Тобто інформаційна ентропія такої комірки дорівнює 1.
Ентропія Марківського процесу [ред.]
| Цей розділ потребує розширення. (листопад 2008) |
Властивості [ред.]
- Ентропія завжди невід'ємна
- Ентропія максимальна, якщо значення xi випадкової величини X рівноймовірні
- Максимальне значення ентропії Hmax(X)=logaN
Приклади [ред.]
| Цей розділ потребує розширення. (листопад 2008) |
Джерела інформації [ред.]
- ↑ Хэмминг Р. В. (1983). Теория информации и теория кодирования. Москва: Радио и Связь.


.