Розпізнавання мови

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Розпізнава́ння мо́ви — процес перетворення мовленнєвого сигналу в текстовий потік. Більш коректно: Розпізнава́ння мо́влення, оскільки «розпізнати мову» безпосередньо означає дати відповідь, до якої мови належить сегмент мовленнєвого сигналу або тексту. Часто використовується у наборі технологій, що дають змогу керувати комп'ютером, використовуючи людський голос, вводити інформацію голосом, диктувати, транскрибувати (стенографувати) фонограми.

Історія[ред.ред. код]

Перший пристрій для розпізнавання усної мови з'явився в 1952 році, він міг розпізнавати вимовлені людиною цифри. [1] В 1964 році на ярмарку комп'ютерних технологій у Нью-Йорку було представлено пристрій IBM Shoebox.

Комерційні програми з розпізнавання мовлення з'явилися на початку дев'яностих років. Зазвичай їх використовують люди, які через травми рук не в змозі набирати велику кількість тексту. Ці програми (наприклад, Dragon Naturally Speaking, VoiceNavigator) переводять голос користувача в текст, таким чином, розвантажуючи його руки. Надійність перекладу у таких програм не дуже висока, але з роками вона поступово покращується.

Збільшення обчислювальних потужностей мобільних пристроїв дозволило і для них створити програми з функцією розпізнавання усної мови. Серед таких програм варто відзначити Microsoft Voice Command, яка дозволяє працювати з багатьма прикладними програмами за допомогою голосу. Наприклад, можна включити відтворення музики в плеєрі або створити новий документ.

У комп'ютерах Apple Macintosh у налаштуваннях системи є вбудована функція Speech, що здатна аналізувати команди користувача при натисканні певної клавіші, або якщо команді користувача передує ключове слово.

Ще однією цікавою програмою є Speereo Voice Translator — голосовий перекладач. SVT здатна розпізнавати фрази, вимовлені англійською мовою, і "говорити" у відповідь переклад на одній з вибраних мов.

Для української мови відома розробка розпізнавання мовлення, яка дає змогу вводити текст голосом. Ця система працює зі словником понад 100 тисяч слів. Її можна завантажити та використовувати для диктування текстів середньої складності.

Інтелектуальні мовні прикладні програми, що дозволяють автоматично синтезувати і розпізнавати усну мову, є наступним етапом розвитку інтерактивних голосових систем IVR. Використання інтерактивного телефонного програмного забезпечення в наш час[Коли?] є не даниною моді, а життєвою необхідністю. Зниження навантаження на операторів контакт-центрів і секретарів, скорочення витрат на оплату праці і підвищення продуктивності систем обслуговування — ось тільки деякі переваги, що доводять доцільність подібних програм.

Однак, прогрес не стоїть на місці і останнім часом у телефонних інтерактивних програмах все частіше використовують системи автоматичного розпізнавання і синтезу мовлення. У цьому випадку спілкування з голосовим порталом стає природнішим, оскільки вибір в ньому може бути здійснений не тільки за допомогою тонового набору, але і за допомогою голосових команд. При цьому системи розпізнавання є незалежними від дикторів, тобто розпізнають голос будь-якої людини. Основною перевагою голосових систем є доброзичливість до користувача — він позбавляється від необхідності продиратися крізь складні і заплутані лабіринти голосових меню. Тепер достатньо вимовлення мети дзвінка, після чого голосова система автоматично перемістить абонента в потрібний пункт меню.

Наступним кроком технологій розпізнавання мови можна вважати розвиток так званих Silent Speech Interfaces (SSI) (Інтерфейсів Безмовного/Артикуляторного Доступу). Ці системи обробки мовлення базуються на одержанні й обробці мовних сигналів на ранній стадії артикуляції. Цей етап розвитку розпізнавання мови викликаний двома істотними вадами сучасних систем розпізнавання: надмірна чутливість до шумів, а також необхідність чіткої і ясної вимови при звертанні до системи розпізнавання. Підхід, заснований на SSI, полягає в тому, щоби використовувати нові сенсори, що не піддаються впливу шумів, як доповнення до оброблених акустичних сигналів.

Примітки[ред.ред. код]

  1. Davies , K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24(6) pp.637 - 642

Див. також[ред.ред. код]


Література[ред.ред. код]

  • Т.К. Винцюк. Анализ, распознавание и смысловая интерпретация речевых сигналов. — Киев. Наукова думка, 1987.
  • Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. — М.: Мир, 1983. — Кн. 1. 328 с., ил.
  • Синтез и распознавание речи. Современные решения: А.В. Фролов, Г.В. Фролов.

Посилання[ред.ред. код]