Модель генерування відео на основі тексту
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.Модель генерування відео на основі тексту (англ. text-to-video model) — модель машинного навчання, яка здатна створювати відеоконтент на основі текстових описів, які надаються користувачем.
У 2020-х роках значний прогрес у створенні високоякісних відео, згенерованих за текстовими описами, відбувся завдяки розвитку дифузійних моделей. Це спеціальний тип моделей, які використовують принципи дифузії для генерації складних і реалістичних відеопослідовностей, базуючись на текстових даних.[1]
Існують різні моделі, включаючи моделі з відкритим вихідним кодом. У 2022 році з'явилися перші значущі моделі цього типу:
- CogVideo — перша текст-відео модель із 9,4 мільярда параметрів, розроблена для обробки китайськомовного вводу.[2] Її демо-версія з відкритим кодом була представлена на GitHub у 2022 році.[3]
- Make-A-Video — часткова текст-відео модель, випущена Meta Platforms у 2022 році, яка також генерує короткі відеокліпи за текстовими підказками.[4][5][6]
- Imagen Video — модель від Google Brain (пізніше Google DeepMind), представлена у 2022 році, що використовує архітектуру 3D U-Net для створення високоякісних відео з тексту.[7][5][8][9][10][11]
У березні 2023 року було опубліковано наукову статтю під назвою «VideoFusion: Декомпозовані дифузійні моделі для створення високоякісних відео» (VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation), у якій представлено новий підхід до генерації відео.[12] Модель VideoFusion розкладає дифузійний процес на два компоненти: базовий шум і залишковий шум, які спільно використовуються між кадрами для забезпечення часової узгодженості. Використання попередньо навченої дифузійної моделі для зображень як базового генератора дозволило ефективно створювати високоякісні та узгоджені відеопослідовності. Точне налаштування попередньо навченої моделі на відеоданих усунуло розрив між даними зображень і відео, покращивши здатність моделі генерувати реалістичні та послідовні відеоролики.[13]
Того ж місяця компанія Adobe представила свою модель Firefly AI.[14]
У січні 2024 року компанія Google оголосила про розробку текст-відео моделі під назвою Lumiere, яка, як очікується, інтегруватиме розширені можливості редагування відео.[15]
У той же період дослідники Маттіас Ніснер і Лурдес Агапіто з компанії Synthesia працювали над розробкою технік 3D-нейронного рендерингу. Ці техніки дозволяють синтезувати реалістичне відео, використовуючи 2D і 3D-нейронні представлення форми, зовнішнього вигляду та руху для контрольованого створення відео з аватарами.[16]
У червні 2024 року Luma Labs запустила свій інструмент для генерації відео Dream Machine, який пропонує інтуїтивно зрозумілий інтерфейс і можливості створення відео на основі текстових або графічних підказок.[17][18] Того ж місяця[19] китайська компанія Kuaishou розширила доступ до своєї текст-відео моделі Kling AI для міжнародних користувачів, що дозволило створювати високоякісні відео з природним рухом.
У липні 2024 року ByteDance, власник TikTok, через свою дочірню компанію Faceu Technology випустив у Китаї модель Jimeng AI, яка підтримує створення коротких відео (до 5 секунд) на основі текстових і графічних підказок.[20]
До вересня 2024 року китайська компанія MiniMax представила свою модель video-01, приєднавшись до інших провідних китайських компаній у сфері штучного інтелекту, таких як Zhipu AI, Baichuan і Moonshot AI, які активно сприяють розвитку AI-технологій у Китаї.[21]
У грудні 2024 року компанія Lightricks запустила LTX Video як модель із відкритим вихідним кодом, що забезпечує гнучкість для розробників і творців контенту. У липні 2025 року Lightricks оновила LTX Video, додавши можливість генерувати відеокліпи тривалістю до 60 секунд.[22]
Окрім основних текст-відео моделей, у сфері генерації відео на основі текстових описів з'явилися альтернативні[23] підходи та моделі: Phenaki від Google, Hour One, Colossyan,[2] Gen-3 Alpha від Runway,[24][25] та Sora від OpenAI.[26][27]
Додатково з'явилися такі моделі, як Plug-and-Play, Text2LIVE і TuneAVideo, які пропонують унікальні підходи до генерації та редагування відео.[28]
У 2025 році Black Forest Labs, розробники моделі FLUX.1, анонсували свою текст-відео модель SOTA.[29] Компанія Google планувала запуск інструменту Veo для створення коротких відео на платформі YouTube Shorts у 2025 році. У травні 2025 року Google представила ітерацію Veo 3, яка вирізняється значними покращеннями в генерації аудіо, що раніше було обмеженням для текст-відео моделей.[30]
У липні 2025 року Lightricks випустила оновлення для LTX Video, яке дозволило генерувати відеокліпи тривалістю до 60 секунд.[31][32]
Для створення моделей генерування відео на основі тексту використовується кілька архітектур, які запозичують принципи з моделей генерування зображення на основі тексту, але адаптовані для обробки часової динаміки відео. Основні архітектури включають:
- Рекурентна нейронна мережа (RNN), зокрема мережі з довгою короткочасною пам'яттю (LSTM), які застосовуються в моделях трансформації пікселів (Pixel Transformation Models) і стохастичних моделях генерації відео (Stochastic Video Generation Models). Ці моделі сприяють часовій узгодженості та підвищенню реалізму згенерованих відеопослідовностей шляхом збереження контексту між кадрами.[33]
- Генеративна змагальна мережа (GANs) — використовуються для створення реалістичних відеокадрів шляхом змагання генератора та дискримінатора. Вони ефективні в генерації візуально привабливих зображень, але можуть мати проблеми з часовою узгодженістю у відео.
- Варіаційний автокодувальник (VAEs) — застосовуються для прогнозування людського руху та моделювання складних розподілів даних, що дозволяє створювати природніші рухи в згенерованих відео, наприклад, для анімації персонажів або аватарів.[34]
- Дифузійна модель — набула популярності завдяки своїй здатності генерувати високоякісні зображення та відео. У текст-відео моделях вони використовуються для поступового уточнення кадрів шляхом видалення шуму, що забезпечує високу деталізацію та часову послідовність. Прикладом є модель VideoFusion, яка розкладає дифузійний процес на базовий і залишковий шум для забезпечення часової когерентності.[35]
Для навчання моделей генерування відео використовуються різноманітні набори даних, які містять як відеоконтент, так і текстові описи, що забезпечують точність і якість генерації. Основні набори даних для тренування відеокомпонентів включають:[36][37]
- WebVid-10M — набір даних із 10 мільйонами коротких відеокліпів, зібраних із вебресурсів, із текстовими описами, що охоплюють широкий спектр тем і сценаріїв.
- HDVILA-100M — великий набір даних, який містить 100 мільйонів відеокліпів високої роздільної здатності з анотаціями, що сприяють навчанню моделей для створення деталізованих і реалістичних відео.
- CCV (Conceptual Captions Video) — набір даних із відеокліпами, супроводжуваними текстовими підписами, які допомагають моделям розуміти зв'язок між текстом і візуальним контентом.
- ActivityNet — колекція відео, зосереджена на людських діях і активностях, із детальними текстовими анотаціями, що використовується для навчання моделей розпізнавання та генерації рухів.
- Panda-70M — набір даних із 70 мільйонами відеокліпів, що включає різноманітний вміст, від повсякденних сцен до професійних відео, із текстовими описами для тренування моделей.
Для навчання моделей інтерпретації текстових підказок використовуються спеціалізовані набори даних, такі як:[36][37]
- PromptSource — набір даних із різноманітними текстовими підказками, що допомагають моделям навчатися інтерпретувати широкий спектр запитів, від простих до складних.
- DiffusionDB — колекція текстових підказок, створених користувачами для дифузійних моделей, що забезпечує різноманітність стилів і форматів тексту для генерації контенту.
- VidProM — набір даних, який поєднує текстові описи з відеоконтентом, спеціально розроблений для навчання моделей зв'язку між текстом і відеопослідовностями.
Процес генерації моделей генерування відео передбачає синхронізацію текстових підказок із відеокадрами, що забезпечує їхню узгодженість і послідовність протягом усієї відеопослідовності.[37]
Однак якість генерації відео може знижуватися зі збільшенням тривалості відео через обмеження обчислювальних ресурсів і складність збереження часової узгодженості. Довші відеопослідовності вимагають більших обсягів пам'яті та обчислювальної потужності, що може призводити до накопичення помилок, таких як артефакти, втрата деталей або невідповідність текстовому опису. Для вирішення цих проблем сучасні моделі, такі як Veo 3 від Google або оновлена LTX Video від Lightricks, використовують оптимізовані алгоритми, що дозволяють генерувати відео тривалістю до 60 секунд із мінімальними втратами якості. Крім того, комбінація попередньо навчених моделей на великих наборах даних, таких як WebVid-10M або HDVILA-100M, із тонким налаштуванням на специфічні відеодані сприяє покращенню якості та стабільності генерації.[37]
Незважаючи на швидкий прогрес у продуктивності текст-відео моделей, вони мають низку суттєвих обмежень, які впливають на їхню ефективність і практичне застосування:
- Висока обчислювальна складність: Моделі, такі як Sora, Lumiere чи VideoFusion, потребують значних обчислювальних ресурсів для обробки складних текстових підказок і створення послідовних відеокадрів. Ця висока потреба в ресурсах обмежує можливість генерації тривалих відео високої якості, особливо на стандартному обладнанні. Наприклад, створення відео довжиною понад 60 секунд часто призводить до зниження роздільної здатності або появи артефактів через обмеження пам'яті та обчислювальної потужності.[38][39]
- Потреба у великих наборах даних: Для досягнення високої якості та часової узгодженості моделі потребують тренування на великих і різноманітних наборах даних, таких як WebVid-10M, HDVILA-100M або Panda-70M. Збір, анотація та обробка таких даних є складним і дорогим процесом, що обмежує доступність технології для менших компаній чи дослідницьких груп. Крім того, якість даних безпосередньо впливає на здатність моделі точно відтворювати текстові описи.[39][38]
- Неточність інтерпретації текстових підказок: Моделі часто неправильно інтерпретують семантичний контекст текстових описів, що призводить до невідповідності згенерованого відео очікуванням користувача. Наприклад, складні або неоднозначні підказки можуть викликати помилки у відтворенні об'єктів, дій чи стилістики. Такі моделі, як Make-A-Video, Imagen Video, Phenaki, CogVideo, GODIVA і NUWA, активно вдосконалюються для покращення розуміння семантики та точності відповідності тексту й відео.[39][37]
- Проблеми з деталізацією та артефактами: У згенерованих відео часто спостерігаються проблеми з дрібними деталями, такими як спотворені руки, обличчя, текст чи об'єкти. Наприклад, текст у відео може бути нерозбірливим, а дрібні елементи, як-от пальці чи складні текстури, можуть виглядати деформованими. Ці проблеми особливо помітні в дифузійних моделях, таких як стабільні дифузійні моделі, які, хоча й ефективні для створення зображень, стикаються з труднощами при генерації послідовних відеокадрів.
Розгортання моделей генерування відео на основі тексту породжує низку етичних питань, пов'язаних із генерацією контенту, які мають значний вплив на суспільство, творців і споживачів контенту. Ці моделі можуть контент, який може бути неетичним або незаконним, зокрема відеоматеріали з відвертим змістом, графічним насильством, дезінформацією або зображеннями реальних осіб без їхньої згоди. Наприклад, створення глибоких підробок (deepfakes) може призвести до порушення приватності чи репутації осіб.[36] Згенеровані відео часто важко відрізнити від справжніх, що ускладнює виявлення дезінформації чи маніпулятивного контенту. Це створює ризик використання таких відео для пропаганди, шахрайства або інших зловмисних цілей. Наприклад, модель може згенерувати правдоподібне відео, яке помилково приписує реальній особі слова чи дії, яких вона не вчиняла.[36]
Текст-відео моделі відкривають широкі можливості для застосування в різних сферах, від освіти до креативних індустрій, але також створюють серйозні виклики, зокрема в контексті інформаційних кампаній у російсько-українській війні.
Текст-відео моделі значно спрощують створення навчальних матеріалів, таких як інтерактивні відеоуроки, симуляції та візуалізації складних концепцій. Наприклад, моделі, як-от Runway Gen-3 Alpha чи LTX Video, дозволяють створювати навчальні ролики, що пояснюють наукові процеси чи історичні події, адаптовані до текстових описів учителів, що економить час і ресурси.[40]
У маркетинговій сфері текст-відео моделі використовуються для створення рекламних роликів, трейлерів і промоційних матеріалів. Такі інструменти, як Hour One і Colossyan, дозволяють генерувати персоналізовані відео з цифровими аватарами, що знижує витрати на виробництво та прискорює процес створення контенту для соціальних мереж, як-от YouTube Shorts чи TikTok.[40]
У кінематографі, ігровій індустрії та дизайні текст-відео моделі, такі як Sora від OpenAI чи Dream Machine від Luma Labs, застосовуються для створення кінематографічних трейлерів, ігрових активів і візуальних ефектів.[40]
Текст-відео моделі використовуються для створення симуляцій у таких галузях, як медицина, інженерія та архітектура. Модель Lumiere від Google може генерувати відео, що демонструють складні фізичні процеси чи архітектурні проєкти, на основі текстових описів, що полегшує комунікацію між фахівцями та клієнтами.[41][42]
Під час російсько-української війни текст-відео моделі, зокрема технології deepfake, активно використовувалися в рамках пропагандистської війни проти України. У березні 2022 року було поширено deepfake-відео, на якому президент України Володимир Зеленський нібито закликав своїх військових скласти зброю та здатися Росії. Це відео, створене за допомогою штучного інтелекту, з'явилося на зламаному сайті українського телеканалу Ukraine 24 і було поширене через соціальні мережі, такі як Telegram і Facebook, з метою деморалізації українських військових і громадян.[43][44][45][46][47][48]
Російська пропаганда використовувала текст-відео моделі, які зображали дітей у складі Збройних сил України або фальшиві оголошення, що закликали дітей доносити на критиків українського уряду. Такі матеріали мали на меті підірвати довіру до української влади та посіяти паніку серед населення. У листопаді 2023 року з'явилися deepfake-відео з головнокомандувачем ЗСУ Валерієм Залужним, де він нібито звинувачував Зеленського у корупції, що також було частиною російської дезінформаційної кампанії.[49][50][51]
| Модель | Компанія | Рік випуску | Статус | Ключові особливості | Можливості | Цінова політика | Тривалість відео | Підтримувані мови |
|---|---|---|---|---|---|---|---|---|
| Synthesia | Synthesia | 2019 | Випущена | ШІ-аватари, підтримка 60+ мов, можливості кастомізації[52] | Спеціалізація на реалістичних ШІ-аватарах для корпоративного навчання та маркетингу[52] | На основі підписки, від ~$30/місяць | Залежить від підписки | 60+ |
| Vexub | Vexub | 2023 | Випущена | Генерація відео з текстових підказок, фокус на форматах для TikTok і YouTube[53] | Створення ШІ-відео (1–15 хвилин) з текстових підказок; включає функції редагування та озвучення[53] | На основі підписки, різні тарифні плани | До ~15 хвилин | 70+ |
| InVideo AI | InVideo | 2021 | Випущена | ШІ-генерація відео, велика бібліотека стокового контенту, ШІ-аватари, що говорять[52] | Орієнтована на контент для соціальних мереж із шаблонами для різних платформ[52] | Доступний безкоштовний план, платні плани від $16/місяць | Залежить від типу контенту | Кілька (не уточнено) |
| Fliki | Fliki AI | 2022 | Випущена | Текст-відео з ШІ-аватарами та голосами, широка підтримка мов і голосів[52] | Підтримує 65+ ШІ-аватарів і 2000+ голосів у 70 мовах[52] | Доступний безкоштовний план, платні плани від $30/місяць | Залежить від підписки | 70+ |
| Runway Gen-2 | Runway AI | 2023 | Випущена | Мультимодальна генерація відео з тексту, зображень або відео[54] | Високоякісні візуали, режими стилізації та створення розкадровки[54] | Безкоштовний пробний період, платні плани (деталі не уточнено) | До 16 секунд | Кілька (не уточнено) |
| Pika Labs | Pika Labs | 2024 | Бета | Динамічна генерація відео, налаштування камери та руху[55] | Зручний інтерфейс, фокус на природній динамічній генерації[55] | Наразі безкоштовна під час бета-тестування | Гнучка, підтримує довші відео з продовженням кадрів | Кілька (не уточнено) |
| Runway Gen-3 Alpha | Runway AI | 2024 | Альфа | Покращена візуальна точність, фотореалістичні люди, детальний часовий контроль[56] | Ультрареалістична генерація відео з точним керуванням ключовими кадрами та професійною кастомізацією[56] | Доступний безкоштовний пробний період, індивідуальна ціна для підприємств | До 10 секунд на кліп, з можливістю розширення | Кілька (не уточнено) |
| Google Veo | 2024 | Випущена | Підказки через Google Gemini, озвучення, звукові ефекти, фонова музика, кінематографічний стиль[57] | Генерація реалістичних і деталізованих персонажів/сцен/кліпів із відповідним озвученням, звуковим супроводом і музикою. Можливість продовження кліпів із збереженням послідовності[58] | Різна ($250 за підписку Google Pro/Ultra AI, додаткові кредити AI) | 8 секунд для окремих кліпів (з можливістю продовження як окремих кліпів) | 50+ | |
| OpenAI Sora | OpenAI | 2024 | Альфа | Глибоке розуміння мови, кінематографічна якість, багатошотові відео[59] | Здатність створювати деталізовані, динамічні та емоційно виразні відео; ще в розробці з акцентом на безпеку[59] | Ціна ще не оголошена | Очікується генерація довших відео; тривалість не уточнена | Кілька (не уточнено) |
- ↑ Melnik, Andrew; Ljubljanac, Michal (6 травня 2024). Video Diffusion Models: A Survey. arXiv:2405.03150 [cs.CV].
- ↑ а б Wodecki, Ben (11 серпня 2023). Text-to-Video Generative AI Models: The Definitive List. AI Business. Informa. Процитовано 18 листопада 2024.
- ↑ CogVideo, THUDM, 12 жовтня 2022, процитовано 12 жовтня 2022
- ↑ Davies, Teli (29 вересня 2022). Make-A-Video: Meta AI's New Model For Text-To-Video Generation. Weights & Biases (англ.). Процитовано 12 жовтня 2022.
- ↑ а б Monge, Jim Clyde (3 серпня 2022). This AI Can Create Video From Text Prompt. Medium (англ.). Процитовано 12 жовтня 2022.
- ↑ Meta's Make-A-Video AI creates videos from text. www.fonearena.com. Процитовано 12 жовтня 2022.
- ↑ google: Google takes on Meta, introduces own video-generating AI. The Economic Times. 6 жовтня 2022. Процитовано 12 жовтня 2022.
- ↑ Nuh-uh, Meta, we can do text-to-video AI, too, says Google. The Register. Процитовано 12 жовтня 2022.
- ↑ Papers with Code - See, Plan, Predict: Language-guided Cognitive Planning with Video Prediction. paperswithcode.com (англ.). Процитовано 12 жовтня 2022.
- ↑ Papers with Code - Text-driven Video Prediction. paperswithcode.com (англ.). Процитовано 12 жовтня 2022.
- ↑ Imagen Video (англ.). Процитовано 31 липня 2025 — через imagen.research.google.
- ↑ Luo, Zhengxiong; Chen, Dayou (2023). VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation. arXiv:2303.08320 [cs.CV].
- ↑ Luo, Zhengxiong; Chen, Dayou (2023). VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation. arXiv:2303.08320 [cs.CV].
- ↑ Adobe launches Firefly Video model and enhances image, vector and design models. Adobe Newsroom. Adobe Inc. 10 жовтня 2024. Процитовано 18 листопада 2024.
- ↑ Yirka, Bob (26 січня 2024). Google announces the development of Lumiere, an AI-based next-generation text-to-video generator. Tech Xplore. Процитовано 18 листопада 2024.
- ↑ Text to Speech for Videos. Synthesia.io. Процитовано 17 жовтня 2023.
- ↑ Nuñez, Michael (12 червня 2024). Luma AI debuts 'Dream Machine' for realistic video generation, heating up AI media race. VentureBeat (амер.). Процитовано 18 листопада 2024.
- ↑ Fink, Charlie. Apple Debuts Intelligence, Mistral Raises $600 Million, New AI Text-To-Video. Forbes (англ.). Процитовано 18 листопада 2024.
- ↑ Franzen, Carl (12 червня 2024). What you need to know about Kling, the AI video generator rival to Sora that's wowing creators. VentureBeat (амер.). Архів оригіналу за 27 червня 2024. Процитовано 18 листопада 2024.
- ↑ ByteDance joins OpenAI's Sora rivals with AI video app launch. Reuters. 6 серпня 2024. Процитовано 18 листопада 2024.
- ↑ Chinese ai "tiger" minimax launches text-to-video-generating model to rival OpenAI's sora. Yahoo! Finance. 2 вересня 2024. Процитовано 18 листопада 2024.
- ↑ Requiroso, Kelvene (15 грудня 2024). Lightricks' LTXV Model Breaks Speed Records, Generating 5-Second AI Video Clips in 4 Seconds. eWEEK (амер.). Процитовано 24 липня 2025.
- ↑ Text2Video-Zero, Picsart AI Research (PAIR), 12 серпня 2023, процитовано 12 серпня 2023
- ↑ Kemper, Jonathan (1 липня 2024). Runway's Sora competitor Gen-3 Alpha now available. THE DECODER (амер.). Процитовано 18 листопада 2024.
- ↑ Generative AI's Next Frontier Is Video. Bloomberg.com (англ.). 20 березня 2023. Процитовано 18 листопада 2024.
- ↑ OpenAI teases 'Sora,' its new text-to-video AI model. NBC News (англ.). 15 лютого 2024. Процитовано 18 листопада 2024.
- ↑ Kelly, Chris (25 червня 2024). Toys R Us creates first brand film to use OpenAI's text-to-video tool. Marketing Dive (амер.). Informa. Процитовано 18 листопада 2024.
- ↑ Jin, Jiayao; Wu, Jianhang; Xu, Zhoucheng; Zhang, Hang; Wang, Yaxin; Yang, Jielong (4 серпня 2023). Text to Video: Enhancing Video Generation Using Diffusion Models and Reconstruction Network. 2023 2nd International Conference on Computing, Communication, Perception and Quantum Technology (CCPQT). IEEE. с. 108—114. doi:10.1109/CCPQT60491.2023.00024. ISBN 979-8-3503-4269-7.
- ↑ Announcing Black Forest Labs. Black Forest Labs (амер.). 1 серпня 2024. Процитовано 18 листопада 2024.
- ↑ Subin, Jennifer Elias,Samantha (20 травня 2025). Google launches Veo 3, an AI video generator that incorporates audio. CNBC (англ.). Процитовано 22 травня 2025.
- ↑ Fink, Charlie. LTX Video Breaks The 60-Second Barrier, Redefining AI Video As A Longform Medium. Forbes (англ.). Процитовано 24 липня 2025.
- ↑ Lightricks' latest release lets creators direct long-form AI-generated videos in real time. SiliconANGLE (амер.). 16 липня 2025. Процитовано 24 липня 2025.
- ↑ Bhagwatkar, Rishika; Bachu, Saketh; Fitter, Khurshed; Kulkarni, Akshay; Chiddarwar, Shital (17 грудня 2020). A Review of Video Generation Approaches. 2020 International Conference on Power, Instrumentation, Control and Computing (PICC). IEEE. с. 1—5. doi:10.1109/PICC51425.2020.9362485. ISBN 978-1-7281-7590-4.
- ↑ Kim, Taehoon; Kang, ChanHee; Park, JaeHyuk; Jeong, Daun; Yang, ChangHee; Kang, Suk-Ju; Kong, Kyeongbo (3 січня 2024). Human Motion Aware Text-to-Video Generation with Explicit Camera Control. 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). IEEE. с. 5069—5078. doi:10.1109/WACV57701.2024.00500. ISBN 979-8-3503-1892-0.
- ↑ Singh, Aditi (9 травня 2023). A Survey of AI Text-to-Image and AI Text-to-Video Generators. 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. с. 32—36. arXiv:2311.06329. doi:10.1109/AIRC57904.2023.10303174. ISBN 979-8-3503-4824-8.
- ↑ а б в г Miao, Yibo; Zhu, Yifan (8 вересня 2024). T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models. arXiv:2407.05965 [cs.CV].
- ↑ а б в г д Zhang, Ji; Mei, Kuizhi; Wang, Xiao; Zheng, Yu; Fan, Jianping (August 2018). From Text to Video: Exploiting Mid-Level Semantics for Large-Scale Video Classification. 2018 24th International Conference on Pattern Recognition (ICPR). IEEE. с. 1695—1700. doi:10.1109/ICPR.2018.8545513. ISBN 978-1-5386-3788-3.
- ↑ а б Bhagwatkar, Rishika; Bachu, Saketh; Fitter, Khurshed; Kulkarni, Akshay; Chiddarwar, Shital (17 грудня 2020). A Review of Video Generation Approaches. 2020 International Conference on Power, Instrumentation, Control and Computing (PICC). IEEE. с. 1—5. doi:10.1109/PICC51425.2020.9362485. ISBN 978-1-7281-7590-4.
- ↑ а б в Singh, Aditi (9 травня 2023). A Survey of AI Text-to-Image and AI Text-to-Video Generators. 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. с. 32—36. arXiv:2311.06329. doi:10.1109/AIRC57904.2023.10303174. ISBN 979-8-3503-4824-8.
- ↑ а б в Singh, Aditi (9 травня 2023). A Survey of AI Text-to-Image and AI Text-to-Video Generators. 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. с. 32—36. arXiv:2311.06329. doi:10.1109/AIRC57904.2023.10303174. ISBN 979-8-3503-4824-8.
- ↑ Lumiere - Google Research. Lumiere - Google Research. Процитовано 1 серпня 2025.
- ↑ Ikiz, Serra Utkum (30 січня 2024). Google introduces a new AI model for video generation: Lumiere (амер.). Процитовано 1 серпня 2025.
- ↑ ქურასბედიანი, ალექსი (9 червня 2025). AI-Generated Photo Of Ukrainian Children In Military Uniforms Circulated Online | Mythdetector.com (амер.). Процитовано 16 червня 2025.
- ↑ Fake Ukraine ad urges kids to report relatives enjoying Russian music. euronews (англ.). 28 березня 2025. Процитовано 16 червня 2025.
- ↑ Photos of Ukrainian children generated by artificial intelligence. behindthenews.ua (англ.). 26 червня 2024. Процитовано 16 червня 2025.
- ↑ Fake Ukrainian TV advert urges children to report relatives listening to Russian music.
- ↑ Deepfake video of Zelenskyy could be 'tip of the iceberg' in info war, experts warn. NPR (англ.). 16 березня 2022. Процитовано 16 червня 2025.
- ↑ Ukraine war: Deepfake video of Zelenskyy telling Ukrainians to 'lay down arms' debunked. Sky News (англ.). Процитовано 16 червня 2025.
- ↑ Окупанти запустили фейкові "звернення" головнокомандувача Залужного. LIGA (укр.). 7 листопада 2023. Процитовано 1 серпня 2025.
- ↑ Фейк: Зеленський звинуватив Залужного в тому, що він займається політикою, і закликав піти з ЗСУ. StopFake (укр.). 3 грудня 2023. Процитовано 1 серпня 2025.
- ↑ ЦПД спростував фейкові відео з Залужним. fakty.com.ua (укр.). 9 листопада 2023. Процитовано 1 серпня 2025.
- ↑ а б в г д е Top AI Video Generation Models of 2024. Deepgram (англ.). Процитовано 30 серпня 2024.
- ↑ а б Vexub – Text-to-video AI generator. Vexub. Процитовано 25 червня 2025.
- ↑ а б Runway Research | Gen-2: Generate novel videos with text, images or video clips. runwayml.com (англ.). Процитовано 30 серпня 2024.
- ↑ а б Sharma, Shubham (26 грудня 2023). Pika Labs' text-to-video AI platform opens to all: Here's how to use it. VentureBeat (амер.). Процитовано 30 серпня 2024.
- ↑ а б Runway Research | Introducing Gen-3 Alpha: A New Frontier for Video Generation. runwayml.com (англ.). Процитовано 30 серпня 2024.
- ↑ Meet Flow, AI-powered filmmaking with Veo 3. blogs.google.com. Процитовано 6 липня 2025.
- ↑ Google Veo DeepMind. google.com. Процитовано 6 липня 2025.
- ↑ а б Sora | OpenAI. openai.com. Процитовано 30 серпня 2024.