Синтез співочого мовлення

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Синтез співочого мовлення (Singing Voice Synthesis, SVS) — це процес створення звукового сигналу, який імітує людський спів за допомогою комп'ютерних програм та систем. Він містить аналіз і моделювання різних аспектів мовлення, таких як мовний ритм, інтонація, артикуляція та інші параметри з метою створення аутентичного звукового висловлювання, подібного до вокалу людини[1]. Принципи SVS є похідними від TTS, проте вони мають помітні відмінності. Відомими системами подібного типу є VOCALOID, Sinsy, SynthV тощо.

TTS vs SVS

[ред. | ред. код]

Співоче мовлення покладає більший акцент на вокальну естетичність та емоційну передачу повідомлення, а не лише чіткість та розбірливість[2], що є ключовими критеріями перцептивної оцінки якості роботи систем голосового синтезу. Вокальний синтезатор потребує більше вхідної інформації (напр. висота та довжина ноти, їхня чітка тривалість, темп, тактовий розмір) в додаток до заданого тексту для того, щоб генерувати голос, що дійсно імітує людський спів з особливою увагою користувача синтезатора до зміни частоти основного тону та довжини голосних фонем. Таким чином, співоче мовлення більше фокусується на естетичних якостях, радше ніж на передачі змісту, на відміну від розмовного синтезу.

Порівняльна таблиця TTS vs SVS
Характеристики TTS[3] Характеристики SVS
якість вимови якість вимови
натуральність звучання натуральність звучання
вокальна естетичність
відповідність музичному супроводу

Тому синтез співочого мовлення потребує більшої частоти дискретизації аудіо сигналу, порівняно з розмовним мовленням, для точної передачі емоційності звучання. Вихідні дані TTS можуть мати частоту дискретизації на рівні 16-24 кГц, але співоче мовлення потребує в цьому випадку в районі 48 кГц з ширшим діапазоном частот[4]. Ввідними даними для програми співочого синтезу може бути стандарт цифрового формату обміну музичною нотацією MIDI та текст, заданий у звичному вигляді або одразу як фонематична нотація. Можна зрозуміти, що для забезпечення генерації повноцінного, експресивного та ритмічного співочого голосу потрібно врахувати всі первинні необхідні характеристики співочого мовлення, які своєю чергою включають характеристики усного мовлення. По-перше, необхідно мати на увазі високі вимоги до деталізації спектральної моделі звукового сигналу, який визначає акустичні особливості артикульованої вимови — це забезпечує досягнення адекватної якості звуку та натуральності відтворюваного голосу. По-друге, порівняно з TTS, більшу роль відіграє ефективна модель частоти основного тону, що уможливлює детальне моделювання акустичних характеристик, а саме складного контура F0 форманти співу[5]. Третьою, але не менш важливою, є модель тривалості, яка враховує ритмічні аспекти співу. Ця модель здатна оброблювати варіації у тривалості фонем, слів та фраз, що визначають ритмічну структуру співу. Вона дозволяє забезпечити відповідну артикуляцію та фразування, що допомагає досягти потрібного музичного ритму та акцентуації в співі.

Мотивація до розробки

[ред. | ред. код]

Створення синтезованого співочого мовлення є одним із перспективних напрямків розвитку галузі сучасного синтезу мовлення. Розробки в цій сфері почалися ще у 70-х роках ХХ століття: німецький гурт Kraftwerk у 1974 році вперше в електронній музиці[6] використали синтезований голос, що було реалізовано за допомогою механічного саморобного вокодера.

З часів перших експериментів музична якість та натуральність таких голосів суттєво покращилась, та в наш час такі розробки вже набувають комерційного застосування. Технології SVS знаходять своє застосування у сучасному музичному виробництві, їх можуть використовувати з різних мотивів:


● Для запису пісень музикантами за відсутності вокаліста

● Для постобробки і корекції музичних записів за неможливості перезаписати аудіо вживу

● Для відновлення/реставрації музичних архівів

● Для відтворення виступів виконавців минулого

● Для продукування голосів, фізично складних для відтворення людьми


Сучасний SVS має за мету створення високоякісних та експресивних співочих голосів на основі даних про музичний супровід. Інтерес до цієї теми зростає як у музичній індустрії, так і наукових сферах, зокрема машинного навчання та обробки мовленнєвого сигналу. Загалом використання нейронних мереж у системах синтезу співочих голосів подібне до їх використання у системах синтезу усного мовлення. Перш за все, синтез співочого мовлення має важливе значення для суто фонетичних досліджень, оскільки на основі створеного таким чином матеріалу можна перевірити гіпотези, що стосуються формування та сприйняття голосу, тобто здійснювати так званий «аналіз шляхом синтезу». Для досягнення цієї мети особливо доречними є підходи, що базуються на фізичному моделюванні або сигнальних моделях голосової продукції. Однак відносно нові підходи, засновані на глибокому навчанні, в яких моделюється лише звук, а не процес його створення, потребують використання інших методів.

Системи SVS також знаходять своє застосування в уникненні необхідності запису реального співака для виконання музичного нотного запису у випадках, коли відсутній співак з необхідними музичними навичками або бажаним тембром голосу, або коли умови для запису не сприятливі. Це особливо корисно для виробництва музики в домашніх студійних умовах. У цьому контексті вже застосовуються техніки синтезу для багатьох музичних інструментів, але досі недостатньо розвинуті для синтезу співу, попри те, що існують програми, такі як VOCALOID[7] та Synthesizer V, які вже використовуються для цієї цілі.

Синтез співу дозволяє включати вокальні треки в композиції без необхідності володіти іншими засобами, окрім комп'ютера з відповідним програмним забезпеченням. Особливою перевагою є те, що композитор має контроль над тембром, інтенсивністю, частотою основного тону, налаштуванням вібрато та акцентів тощо. Наостанок, особливий інтерес використання синтезу голосу полягає також у можливості вийти за межі доступних людських голосів, наприклад синтезувати такі контури частоти основного тону зі складними ритмами або інтервалами, які були б дуже важкими для виконання реальним співаком. Також може виникнути бажання розширити діапазон співака, інтерполювати між різними голосами та стилями співу. Існує й безліч інших прикладних застосувань SVS-систем, наприклад у сфері відеоігор чи мобільних застосунків[8].

Таке різноманіття задач ще раз підтверджує актуальність таких розробок та спонукає до створення прототипу саме українськомовної системи SVS, яка б у перспективі могла покривати вище описані та багато інших проблем.

Примітки

[ред. | ред. код]
  1. Ardaillon, Luc (2017). Synthesis and expressive transformation of singing voice (English) . Paris.
  2. Гаврилюк, В. В. (2010). Феномен співочого мовлення. Мовні і концептуальні картини світу (Українська) . Київ. с. 119—124.
  3. History and Development of Speech Synthesis. Helsinki University of Technology. 2006.
  4. Youngmoo Edmund Kim (2003). Singing Voice Analysis/Synthesis. Philadelphia, PA, USA: Drexel University.
  5. Zhaoxi Mu, Xinyu Yang, Yizhuo Don (2021). Review of end-to-end speech synthesis technology based on deep learning.
  6. Douglas, Adam. synthesis/ From Voder to Ovox: a history of vocal synthesis. Attack Magazine (амер.). Процитовано 4 грудня 2023.
  7. Kenmochi, Hideki (2008). Singing Synthesis: VOCALOID and its Technologies. Journal of the Human Interface Society №10. с. 161—164.
  8. Perry R. Cook (1996). Singing Voice Synthesis: History, Current Work, and Future Directions. Computer Music Journal Vol. 20, No. 3. с. 38—46.

Посилання

[ред. | ред. код]