Linear predictive coding

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Кодува́ння з ліні́йним преди́ктором (LPC, англ. Linear predictive coding​​) - спосіб перетворення аналогового сигналу в цифрову форму, який використовується в основному в обробці аудіосигналу (мови) для представлення спектральної огинаючої цифрового сигналу мовлення в стислому вигляді, з використанням інформації лінійної прогностичної моделі. Це один з найбільш потужних методів аналізу мови, і один з найкорисніших методів для кодування хорошої якості мови при низькій швидкості передачі бітів. LPC забезпечує надзвичайно точні оцінки параметрів мови.

Кодування мовного сигналу являє собою аналіз мови, в ході якого задаються параметри кодера і тип сигналу збудження. На наступному етапі ці параметри передаються на приймач, де вони використовуються декодером, виступаючим в ролі синтезатора мови.

Голосовий тракт можна представити як фільтр з регулярно оновлюваними коефіцієнтами, порушуваний кожні 15-30 мс періодичним або шумоподібним сигналом. Мовний кодер проводить синтез фільтра, який моделює голосовий тракт мовного сигналу - встановлює тип збудження (шум або послідовність імпульсів) і його період. Як критерій синтезу фільтра, як правило, використовується мінімізація середньоквадратичної помилки, що представляє собою зважену суму квадратів різниць між фрагментами вхідного мовного сигналу і фрагментами, синтезованими кодером із заданими коефіцієнтами.

З квазістаціонарності голосового сигналу випливає, що параметри моделі з лінійним передбаченням повинні оновлюватися кожні 15-30 мс. Це час визначає довжину кадру мовного кодера. Кадр містить двійковий блок, сформований на виході LPC-кодера. Блок складається з одного біта, що визначає тип сигналу збудження, шести бітів, що визначають період сигналу збудження, і п'яти бітів, що визначають приріст за логарифмічною шкалою. На кодування кожного коефіцієнта відбиття потрібно 6 бітів. Одночасно може застосовуватися до 10 коефіцієнтів. Отже, стандартний кадр складається з 72 бітів, а швидкість двійкового потоку змінюється від 2400 до 4800 кбіт/с, залежно від періодичності кадрів. Мовний сигнал, відновлений приймачем, що працює за моделлю лінійного передбачення, має відносно низьку якість і "синтетичне" звучання. Тому в комерційних системах використовуються більш просунуті моделі, які дозволяють домогтися кращого звучання[1].

Примітки[ред.ред. код]

Див. також[ред.ред. код]