Перейти до вмісту

Riffusion

Матеріал з Вікіпедії — вільної енциклопедії.
Riffusion
ТипТекст-у-зображення[en]
Розробник
  • Сет Форсгрен
  • Гайк Мартірос
Перший випуск15 грудня 2022
Стабільний випуск (15 грудня 2022)
Мова програмуванняPython
ЛіцензіяMIT License
Репозиторійgithub.com/hmartiro/riffusion-inference
Вебсайтriffusion.com

Riffusion — це штучна нейронна мережа, розроблена Сетом Форсгреном і Гайком Мартіросом, яка генерує музику, використовуючи зображення звуку замість аудіо[1]. Модель була створена шляхом донавчання існуючої Stable Diffusion[2], відкритої моделі для генерації зображень за текстовими запитами, на спектрограмах[1]. Це дозволяє моделі використовувати текстові запити для створення зображень, які потім можна перетворити в аудіофайли через зворотне перетворення Фур'є[3][4][5]. Хоча ці файли тривають лише кілька секунд, модель також здатна використовувати латентний простір між вихідними даними для інтерполяції різних аудіофайлів[1][6]. Цей процес здійснюється за допомогою функціональності Stable Diffusion, відомої як img2img[7].

Згенерований спектрограм за запитом «босанова з електрогітарою» (вгорі) і відповідний аудіофайл після перетворення (внизу)

Згенерована музика описується як «дещо неземна» і навряд чи зможе замінити музику, створену людьми[8]. Модель стала доступною 15 грудня 2022 року. Її код опубліковано на GitHub[3]. Riffusion є однією з багатьох моделей, створених на основі Stable Diffusion[7].

У грудні 2022 року Mubert аналогічно використав Stable Diffusion для перетворення тексту на музику[9]. У січні 2023 року Google опублікувала статтю про власний генератор текст-у-музику під назвою MusicLM[10][11].

Примітки

[ред. | ред. код]
  1. а б в Coldewey, Devin (15 грудня 2022). Try 'Riffusion,' an AI model that composes music by visualizing it. TechCrunch (амер.). Процитовано 5 грудня 2024.
  2. Riffusion. riffusion.com. 16 грудня 2022. Архів оригіналу за 16 грудня 2022. Процитовано 5 грудня 2024.
  3. а б Nasi, Michele (15 грудня 2022). Riffusion: creare tracce audio con l'intelligenza artificiale. IlSoftware.it. Процитовано 5 грудня 2024.
  4. Музичні генератори зі штучним інтелектом, які вже доступні. Riffusion. Root Nation (укр.). Процитовано 5 грудня 2024.
  5. Искусственный интеллект Riffusion генерирует музыку по текстовым подсказкам. www.techcult.ru (рос.). Процитовано 5 грудня 2024.
  6. Nouvelles (15 грудня 2022). Essayez "Riffusion", un modèle d'IA qui compose de la musique en la visualisant • TechCrunch. Nouvelles Du Monde (амер.). Процитовано 5 грудня 2024.{{cite web}}: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання)
  7. а б 文章に沿った楽曲を自動生成してくれるAI「Riffusion」登場、画像生成AI「Stable Diffusion」ベースで誰でも自由に利用可能 - GIGAZINE. gigazine.net (яп.). 16 грудня 2022. Процитовано 5 грудня 2024.
  8. Llano, Eutropio (15 грудня 2022). El generador de imágenes AI también puede producir música (con resultados de otro mundo). deporticos.co.cr (ісп.). Процитовано 5 грудня 2024.
  9. Team, Mubert (21 грудня 2022). Mubert launches Text-to-Music interface – a completely new way to generate music from a single text prompt. MUBERT | Blog – Royalty-free AI Music for Content Creators. Процитовано 5 грудня 2024.
  10. MusicLM. google-research.github.io. Процитовано 5 грудня 2024.
  11. Sandzer-Bell, Ezra (14 травня 2024). Google's new Music AI SandBox Expands on MusicLM & MusicFX. AudioCipher (англ.). Процитовано 5 грудня 2024.