Перейти до вмісту

Розпізнавання мовлення

Матеріал з Вікіпедії — вільної енциклопедії.

Розпізнава́ння мо́влення (англ. speech recognition) або мо́влення у те́кст (англ. speech to text (STT)) — процес перетворення мовленнєвого сигналу в текстовий потік. Не варто плутати із розпізнаванням мови, оскільки «розпізнати мову» означає лише визначити, до якої мови належить сегмент мовленнєвого сигналу. Часто використовується у наборі технологій, що дають змогу керувати комп'ютером, використовуючи голос, вводити інформацію голосом (шукати в Інтернеті за допомогою голосового пошуку), диктувати, транскрибувати (стенографувати) фонограми.

Історія

[ред. | ред. код]

Перший пристрій для розпізнавання усної мови з'явився в 1952 році, він міг розпізнавати вимовлені людиною цифри. [1] В 1964 році на ярмарку комп'ютерних технологій у Нью-Йорку було представлено пристрій IBM Shoebox.

Комерційні програми з розпізнавання мовлення з'явилися на початку дев'яностих років. Зазвичай їх використовують люди, які через травми рук не в змозі набирати велику кількість тексту. Ці програми (наприклад, Dragon Naturally Speaking, VoiceNavigator) переводять голос користувача в текст, таким чином, розвантажуючи його руки. Надійність перекладу у таких програм не дуже висока, але з роками вона поступово покращується.

Збільшення обчислювальних потужностей мобільних пристроїв дозволило і для них створити програми з функцією розпізнавання усної мови. Серед таких програм варто відзначити Microsoft Voice Command, яка дозволяє працювати з багатьма прикладними програмами за допомогою голосу. Наприклад, можна включити відтворення музики в плеєрі або створити новий документ.

У комп'ютерах Apple Macintosh у налаштуваннях системи є вбудована функція Speech, що здатна аналізувати команди користувача при натисканні певної клавіші, або якщо команді користувача передує ключове слово.

Ще однією цікавою програмою є Speereo Voice Translator — голосовий перекладач. SVT здатна розпізнавати фрази, вимовлені англійською мовою, і «промовляти» у відповідь переклад однією з вибраних мов.

Для української мови відома розробка розпізнавання мовлення[2], яка дає змогу вводити текст голосом. Ця система працює зі словником понад 100 тисяч слів. Її можна завантажити та використовувати для диктування текстів середньої складності.

Починаючи з 2000-х років, голосовий відгук став більш поширеним і дешевшим у впровадженні. Це було пов'язано зі збільшенням потужності процесорів і переходом мовних додатків з пропрієтарного коду на стандарт VXML. Інтелектуальні мовні прикладні програми, що дозволяють автоматично синтезувати та розпізнавати усну мову, є наступним етапом розвитку інтерактивних голосових систем IVR. Їх використання призвело до зниження навантаження на операторів контакт-центрів і секретарів, скорочення витрат на оплату праці та підвищення продуктивності у сфері послуг. Достатньо вимовлення мети дзвінка, після чого голосова система автоматично перемістить абонента в потрібний пункт меню. При цьому системи розпізнавання є незалежними від дикторів, тобто розпізнають голос будь-якої людини.

Наступним кроком технологій розпізнавання мови можна вважати розвиток так званих Silent Speech Interfaces (SSI) (Інтерфейсів Безмовного/Артикуляторного Доступу). Ці системи обробки мовлення базуються на одержанні й обробці мовних сигналів на ранній стадії артикуляції. Цей етап розвитку розпізнавання мови викликаний двома істотними вадами сучасних систем розпізнавання: надмірна чутливість до шумів, а також необхідність чіткої і ясної вимови при звертанні до системи розпізнавання. Підхід, заснований на SSI, полягає в тому, щоби використовувати нові сенсори, що не піддаються впливу шумів, як доповнення до оброблених акустичних сигналів.

У 2022 році з'явились end-to-end моделі Whisper від OpenAI та Wav2Vec 2.0 від Meta, які демонструють високу стійкість до фонового шуму й акцентів. Під час збору аудіоданих компанія Meta Platforms вирішила використати Біблію, перекладену і озвучену багатьма мовами. В результаті обробки подібних текстів розробники збільшили кількість доступних мов моделі до понад 4000.[3]

Методи розпізнавання

[ред. | ред. код]

Якість розпізнавання

[ред. | ред. код]

На 2016 рік розробка з розпізнавання та синтезу мови від компанії Microsoft забезпечує якість розпізнавання, близьку до людини (5.9% помилок проти 5.1%) та здатна визначати контекст (спорт, комп'ютери тощо). В 2017 році компанія IBM досягла рівня помилок у 5.5%[4].

Примітки

[ред. | ред. код]
  1. Davies , K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24(6) pp.637 - 642
  2. Розпізнавання мовлення – введення тексту голосом українською мовою (VoiceTypist). Архів оригіналу за 5 березня 2016. Процитовано 12 серпня 2012.
  3. Meta’s open-source speech AI recognizes over 4,000 spoken languages. Процитовано 22 травня 2023.
  4. IBM ПРЕВЗОШЛА MICROSOFT В ЭФФЕКТИВНОСТИ РАСПОЗНАВАНИЯ РЕЧИ. Архів оригіналу за 23 серпня 2017. Процитовано 23 серпня 2017.

Див. також

[ред. | ред. код]

Література

[ред. | ред. код]
  • Т.К. Винцюк. Анализ, распознавание и смысловая интерпретация речевых сигналов. — Киев. Наукова думка, 1987.
  • Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. — М.: Мир, 1983. — Кн. 1. 328 с., ил.
  • Синтез и распознавание речи. Современные решения: А.В. Фролов, Г.В. Фролов.

Посилання

[ред. | ред. код]