Синтез мови

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Си́нтез мо́ви — перетворення друкарського тексту у мовний сигнал (в широкому сенсі — відновлення форми мовного сигналу за його параметрами). Пристрій, який здійснює синтез мови, називається синтезатором мови.

Історія[ред.ред. код]

Синтез мови має довгу історію, що обросла легендами. Ще в Х столітті Герберту Аврілакському приписували володіння мистецтвом виготовлення терафіма — мертвої голови, що говорить. Зроблена з бронзи, ця голова словами «так і ні» відповідала на питання будь-кого, хто до неї звертався. В середині століття монах-домініканець Альберт фон Больштедт й англійський філософ-природодослідник Роджер Бекон також намагалися створювати перші зразки голів, що «говорять».

В кінці XVIII століття данський учений Крістіан Кратценштейн, член Російської Академії Наук, створив модель мовного тракту людини, здатну вимовляти п'ять довгих голосних звуків (а, е, і, о, у). Модель була системою акустичних резонаторів різної форми, що видавали голосні звуки за допомогою вібруючих язичків. У 1778 австрійський учений Вольфганг фон Кампелен доповнив модель Кратценштейна моделями язика й губ та представив акустичну-механічну машину, що говорить, здатну відтворювати певні звуки і їх комбінації. Шиплячі і свистячі видувалися за допомогою спеціального міха з ручним управлінням. У 1837 учений Чарльз Уїтстоун представив покращений варіант машини, здатний відтворювати голосні і більшість приголосних звуків. А в 1846 році Джозеф Фабер продемонстрував свій euphonia, орган, що говорить. В ньому було реалізовано спробу синтезування не тільки мови, але і співу.

В кінці XIX століття відомий учений Олександр Белл створив власну механічну модель, що «говорить», дуже схожу за конструкцією з машиною Уїтстоуна. З початком XX століття почалася ера електричних машин, і учені дістали можливість використовувати генератори звукових хвиль і на їх базі будувати алгоритмічні моделі.

У 1930-х роках працівник Bell Labs Гомер Дадлі, працюючи над проблемою збільшення передавальної здатності у телефонії, розробив вокодер (скорочено від англ. voice — голос, англ. coder — кодувальник) — керований за допомогою клавіатури електронний аналізатор і синтезатор мови. Ідея Дадлі полягала в аналізуванні голосового сигналу, розбору його на частини і пересинтезація у менш вимогливу до пропускної спроможності лінію. Вдосконалений варіант вокодера Дадлі, VODER, був представлений на Нью-Йорській всесвітній виставці 1939 року

Перші синтезатори мови звучали досить неприродньо, і часто було важко розібрати вироблювані ними фрази. Проте якість синтезованої мови постійно поліпшувалася, і мову, що генерується сучасними системами синтезу, деколи не відрізнити від реальної людської мови. Але незважаючи на успіхи електронних синтезаторів мови, дослідження в області створення механічних синтезаторів мови ведуться досі, наприклад, для використання в роботах-гуманоїдах.

Перші системи синтезу мови на базі обчислювальної техніки почали з'являтися в кінці 1950-х років, а перший синтезатор «текст-мова» був створений в 1968.

Способи синтезу мови[ред.ред. код]

Всі способи синтезу мови можна підрозділити на три групи:{ref|sorokinref}

  • параметричний синтез;
  • конкатенативний, або синтез компіляції (компілятивний);
  • синтез за правилами.

Параметричний синтез[ред.ред. код]

Параметричний синтез мови є кінцевою операцією в вокодерних системах, де мовний сигнал представляється набором невеликого числа параметрів, що безперервно змінюються. Параметричний синтез доцільно застосовувати в тих випадках, коли набір повідомлень обмежений і змінюється не дуже часто. Гідністю такого способу є можливість записати мову для будь-якої мови і будь-якого диктора. Якість параметричного синтезу може бути дуже високою (залежно від ступеня стиснення інформації в параметричному уявленні). Проте параметричний синтез не може застосовуватися для довільних, заздалегідь не заданих повідомлень.

Компіляційний синтез[ред.ред. код]

Компіляційний синтез зводиться до складання повідомлення із заздалегідь записаного словника початкових елементів синтезу. Розмір елементів синтезу не менше слова. Очевидно, що зміст повідомлень, що синтезуються, фіксується обсягом словника. Як правило, число одиниць словника не перевищує декількох сотень слів. Основна проблема в компілятивному синтезі — обсяги пам'яті для зберігання словника. У зв'язку з цим використовуються різноманітні методи стиснення/кодування мовного сигналу. Компілятивний синтез має широке практичне застосування. За кордоном різноманітні пристрої (від військових літаків до побутових пристроїв) оснащуються системами мовної відповіді. У нашій країні системи мовної відповіді до недавнього часу використовувалися в основному в області військової техніки, зараз вони знаходять все більше застосування в повсякденному житті, наприклад, в довідкових службах операторів стільниковому зв'язку при отриманні інформації про стан рахунку абонента.

Повний синтез мови за правилами[ред.ред. код]

Повний синтез мови за правилами (або синтез за друкарським текстом) забезпечує управління всіма параметрами мовного сигналу і, таким чином, може генерувати мову за заздалегідь невідомим текстом. В цьому разі параметри, отримані при аналізі мовного сигналу, зберігаються в пам'яті так само, як і правила з'єднання звуків в слова і фрази. Синтез реалізується шляхом моделювання мовного тракту, застосування аналогової або цифрової техніки. Причому в процесі синтезування значення параметрів і правила з'єднання фонем вводять послідовно через певний часовий інтервал, наприклад 5-10 мс. Метод синтезу мови за друкарським текстом (синтез за правилами) базується на запрограмованому знанні акустичних і лінгвістичних обмежень і не використовує безпосередньо елементів людської мови. У системах, заснованих на цьому способі синтезу, виділяється два підходи. Перший підхід направлений на побудову моделі мовотворчої системи людини, він відомий під назвою артикуляторного синтеза. Другий підхід — формантний синтез за правилами. Розбірливість і натуральність таких синтезаторів може бути доведена до величин, порівнянних з характеристиками природної мови.

Синтез мови за правилами з використанням попередньо запам'ятованих відрізків природної мови, — це різновид синтезу мови за правилами, яка набула поширення у зв'язку з появою можливостей маніпулювання мовним сигналом в оцифрованій формі. Залежно від розміру початкових елементів синтезу виділяються такі види синтезу:

  • мікросегментний (мікрохвильовий);
  • алофонічний;
  • дифонний;
  • напівскладовий;
  • складовий;
  • синтез з одиниць довільного розміру.

Зазвичай як такі елементи використовуються напівсклади — сегменти, що містять половину приголосного і половину суміжного з ним голосного. При цьому можна синтезувати мову за заздалегідь не заданим текстом, але важко управляти інтонаційними характеристиками. Якість такого синтезу не відповідає якості природної мови, оскільки на границях зшивання дифонів часто виникають спотворення. Компіляція мови із заздалегідь записаних словоформ також не вирішує проблеми високоякісного синтезу довільних повідомлень, оскільки акустичні і просодичні (тривалість і інтонація) характеристики слів змінюються залежно від типу фрази і місця слова у фразі. Це положення не міняється навіть при використанні великих обсягів пам'яті для зберігання словоформ.

Застосування синтезу мови[ред.ред. код]

Синтез мови за текстом або кодом повідомлення може бути використаний в техніці зв'язку, в інформаційно-довідкових системах, для допомоги сліпим і німим, при управлінні людиною з боку автомата, для видачі інформації про технологічні процеси, у військовій і космічній техніці, у робототехніці, в акустичному діалозі людини з комп'ютером. Взагалі, синтез мови може бути потрібен у всіх випадках, коли одержувачем інформації є людина.

Див. також[ред.ред. код]

Примітки[ред.ред. код]

  1. ^  У такому визначенні перетворення звукового тиску в електричну напругу і навпаки в мікрофоні і телефоні, а також запис і відтворення, наприклад, з магнітних носіїв не є синтезом. Дискретизація і квантування мовного сигналу при імпульсно-кодовій модуляції також не відносяться до синтезу мови, але генерація мовного сигналу в вокодерних системах може вважатися синтезом.
  2. ^  На сторінці Dennis Klatt’s History of Speech Synthesis, присвяченій історії розвитку синтезаторів мови, представлені звукові файли із записами різних синтезаторів мови. Є файл із записом звучання вокодера Хомера Дадлі.
  3. ^  Наприклад, японські учені з лабораторії Таканіси (takanishi Laboratory) університету Васеда (waseda University) працюють над створенням антропоморфічної моделі робота, що говорить. Остання їх розробка (2005) — модель Waseda Talker No.5 — має весь набір мовних інструментів: легені, гортань, м'яке піднебіння, язик, зуби, губи тощо. В цілому всі ці органи мають 18 мір свободи. На їх сторінці Anthropomorphic Talking Robot Waseda-talker Series можна ознайомитися з докладнішою інформацією, зокрема фотографіями і відеозаписами.

Використана література[ред.ред. код]

  1. {note|sorokinref}сорокин В. Н. Синтез мови. — М.: Наука, 1992, с. 392.