Генерация видео с помощью нейросетей — относительно новое, быстроразвивающееся направление в области генеративного ИИ.
Первопроходцы в этой сфере появились в 2016–2017 года. Тогда были созданы экспериментальные модели, способные генерировать простые видео низкого разрешения (порядка 64х64 пикселей).
По мере совершенствования архитектуры нейронных сетей и накопления все больших объемов видеоданных для обучения, модели становились эффективнее.
В 2020 году компания Nvidia представила GAN-модель
GANverse3D, способную генерировать фотореалистичные 3D-видеоролики длительностью до нескольких секунд. Это был важный прорыв.
Лучшая нейросеть в генерации видео GEN-1: хардкорный архитектурный обзорВ 2021 году команда исследователей Runway опубликовала научную статью о новом подходе к синтезу видео с помощью диффузионных моделей. Этот подход, названный «структурное и контентное руководство», впервые позволял с высокой точностью управлять как пространственно-временной структурой, так и семантическим содержанием генерируемого видео.
Существенные результаты генерации видео по текстовому описанию были получены исследователями в 2022 году, когда были представлены несколько разных алгоритмов генерации видео.
Нейросети в генерации видео: Imagen video и PhenakiВ 2022 году последовала публикация работы
Phenaki от Google — авторегрессионной модели, способной генерировать видео произвольной длительности из последовательности текстовых описаний. Для Phenaki использовалось совместное обучение на парах «текст-изображение» и небольшом объеме пар «текст-видео».
К концу 2022 инженеры Google значительно улучшили качество и разрешение видео, генерируемых
Imagen Video за счет масштабирования моделей.
Imagen Video способна генерировать 5-секундные видеоролики 1080p из текста благодаря каскаду из 7 моделей диффузии. Первый этап — обработка текста мощной языковой моделью. Далее следуют этапы повышения разрешения с применением пространственного и временного суперразрешения.
Phenaki использует авторегрессионный подход. Она преобразует текст в видео-токены при помощи кодера C-ViViT. Каждое последующее описание генерирует следующий кадр на основе предыдущих. Это позволяет создавать видео неограниченной длительности с динамически меняющимися сюжетами.
Обучение моделей велось на сочетании внутренних данных Google и публичных наборов данных.
Imagen Video продемонстрировала способность генерировать видео в разных художественных стилях и с эффектами 3D. Phenaki также показала впечатляющие результаты в визуальном сторителлинге.
В 2022 году, основываясь на этих исследованиях, команда RunwayML представила систему Gen-1, способную генерировать фотореалистичное видео в высоком разрешении из текстовых описаний и изображений.
12 октября 2023 года в Kandinsky 2.2 появилась возможность генерировать четырёхсекундные ролики по текстовому описанию.
Модель Kandinsky Video обладает следующими основными возможностями и характеристиками:
1. Генерация коротких видеороликов по текстовому описанию. По одному текстовому запросу Kandinsky может сгенерировать видео длиной до 8 секунд с применением выбранного пользователем эффекта анимации.
2. Высокое качество видео. Видеоролики, созданные моделью, имеют разрешение 640х640 пикселей и частоту 30 кадров в секунду. Эти параметры позволяют получать плавное и качественное видео.
3. Режим анимации. Пользователи могут создавать видео в режиме анимации, описывая сюжет и действия персонажей текстом. Модель конвертирует такие текстовые описания в видеоролики.
5. Высокая детализация в Kandinsky Video. Частота кадров для Kandinsky Video составляет 30 кадров в секунду
6. Обучение на большом датасете. Для тренировки Kandinsky Video использовался объёмный датасет, содержащий 300 000 пар «текст-видео». Это позволило достичь высокого качества генерации.
7. Двухблочная архитектура. В основе Kandinsky Video лежат два ключевых блока: генератор ключевых кадров и регулятор плавности движений. Их совместная работа даёт высокое качество конечного видео.
8. Использование Kandinsky 3.0. В качестве генератора отдельных кадров в Kandinsky Video применяется улучшенная версия базовой модели Kandinsky 3.0. Это позволяет достичь плавности и реалистичности анимации.