G.729

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

G.729 — вузькосмуговий мовний кодек, який застосовується для ефективного цифрового представлення вузькосмугової телефонної розмови (сигналу телефонної якості). Така розмова характеризується смугою між 300 і 3400 Гц і може бути оцифрована з частотою дискретизації 8 кГц. В ідеалі мовний кодек повинен представлятися найбільшою розрядністю. У цьому випадку відновлена ​​мова буде точно відповідати оригіналу. На практиці доводиться вибирати розрядність кодека і миритися з деякою похибкою квантування.

G.729 — широко використовуваний тип кодека, швидкість 8 Кбіт/с. Відповідно до теорії, мовний сигнал тривалістю в одну секунду можна повністю описати (тобто оцифрувати, передати або зберегти в цифровому вигляді і потім відновити в вихідний сигнал по цифровому поданню) цифровим потоком 60 байт/сек. Ідея оцифровувати і передавати (або зберігати) в цифровому виді не сам сигнал, а його параметр (кількість переходів через нуль, спектральні характеристики та ін), щоб потім по цих параметрах вибирати модель голосового тракту і синтезувати вихідний сигнал, лежить в основі вокодерів (VOice CODER) або «синтезуючих кодеків».

Для всіх типів кодеків справедливе правило : чим менше щільність цифрового потоку, тим більше відновлений сигнал відрізняється від оригіналу. Однак відновлений сигнал гібридних кодеків має цілком достатні характеристики, відновлюється тембр мовного сигналу, його динамічні характеристики, іншими словами, його «впізнаваність».

Алгоритм

Алгоритм заснований на моделі кодування з використанням лінійного передбачення з використанням алгебраїчної кодової книги (CELP — модель). Кодер оперує з кадрами мовного сигналу довжиною 10 мс, дискретизованного з частотою 8 КГц, що відповідає 80-ти 16-бітним відлікам в лінійному законі. Для кожного кадру проводиться аналіз мовного сигналу і виділяються параметри моделі (коефіцієнти фільтра лінійного передбачення, індекси і коефіцієнти посилення в адаптивній та фіксованій кодових книгах). Далі ці параметри кодуються і передаються в канал.

У декодері бітова посилка використовується для відновлення параметрів сигналу збудження і коефіцієнтів синтезуючого фільтра. Мова відновлюється шляхом пропускання сигналу збудження через короткочасний синтезирующий фільтр.

Синтезуючий фільтр має полюсну передавальну функцію 10-го порядку. Для роботи синтезатора основного тону використовується адаптивна кодова книга. Згодом мова поліпшується адаптивною постфільтрацією.

У разі втрати переданої кодером бітової посилки, вихідні дані для мовного синтезатора отримують інтерполяцією даних з попередніх «хороших» кадрів, але при цьому енергія інтерпольованого мовного сигналу поступово зменшується, що не створює особливого дискомфорту у слухача.

Вокодер обробляє кадри мовних сигналів довжиною 10 мс. Додатково існує затримка довжиною 5 мс (look-ahead buffer), що в сумі виливається в алгоритмічну затримку 15 мс (« 10+5 »). Затримки мовного сигналу в практичному додатку цього алгоритму також визначаються часом, що витрачається на :

  • процеси кодування та декодування ;
  • передачу по каналу ;
  • мультиплексування при комбінуванні аудіоданих з іншими видами даних.

Див. також