1.2 История моделей для генерации видео
Генерация видео с помощью нейросетей — относительно новое, быстроразвивающееся направление в области генеративного ИИ.

Первопроходцы в этой сфере появились в 2016–2017 года. Тогда были созданы экспериментальные модели, способные генерировать простые видео низкого разрешения (порядка 64х64 пикселей).

По мере совершенствования архитектуры нейронных сетей и накопления все больших объемов видеоданных для обучения, модели становились эффективнее.

В 2020 году компания Nvidia представила GAN-модель GANverse3D, способную генерировать фотореалистичные 3D-видеоролики длительностью до нескольких секунд. Это был важный прорыв.

Лучшая нейросеть в генерации видео GEN-1: хардкорный архитектурный обзор

В 2021 году команда исследователей Runway опубликовала научную статью о новом подходе к синтезу видео с помощью диффузионных моделей. Этот подход, названный «структурное и контентное руководство», впервые позволял с высокой точностью управлять как пространственно-временной структурой, так и семантическим содержанием генерируемого видео.

Существенные результаты генерации видео по текстовому описанию были получены исследователями в 2022 году, когда были представлены несколько разных алгоритмов генерации видео.

Нейросети в генерации видео: Imagen video и Phenaki

В 2022 году последовала публикация работы Phenaki от Google — авторегрессионной модели, способной генерировать видео произвольной длительности из последовательности текстовых описаний. Для Phenaki использовалось совместное обучение на парах «текст-изображение» и небольшом объеме пар «текст-видео».

К концу 2022 инженеры Google значительно улучшили качество и разрешение видео, генерируемых Imagen Video за счет масштабирования моделей.

Imagen Video способна генерировать 5-секундные видеоролики 1080p из текста благодаря каскаду из 7 моделей диффузии. Первый этап — обработка текста мощной языковой моделью. Далее следуют этапы повышения разрешения с применением пространственного и временного суперразрешения.

Phenaki использует авторегрессионный подход. Она преобразует текст в видео-токены при помощи кодера C-ViViT. Каждое последующее описание генерирует следующий кадр на основе предыдущих. Это позволяет создавать видео неограниченной длительности с динамически меняющимися сюжетами.

Обучение моделей велось на сочетании внутренних данных Google и публичных наборов данных.

Imagen Video продемонстрировала способность генерировать видео в разных художественных стилях и с эффектами 3D. Phenaki также показала впечатляющие результаты в визуальном сторителлинге.

В 2022 году, основываясь на этих исследованиях, команда RunwayML представила систему Gen-1, способную генерировать фотореалистичное видео в высоком разрешении из текстовых описаний и изображений.

12 октября 2023 года в Kandinsky 2.2 появилась возможность генерировать четырёхсекундные ролики по текстовому описанию.

Модель Kandinsky Video обладает следующими основными возможностями и характеристиками:

1. Генерация коротких видеороликов по текстовому описанию. По одному текстовому запросу Kandinsky может сгенерировать видео длиной до 8 секунд с применением выбранного пользователем эффекта анимации.

2. Высокое качество видео. Видеоролики, созданные моделью, имеют разрешение 640х640 пикселей и частоту 30 кадров в секунду. Эти параметры позволяют получать плавное и качественное видео.

3. Режим анимации. Пользователи могут создавать видео в режиме анимации, описывая сюжет и действия персонажей текстом. Модель конвертирует такие текстовые описания в видеоролики.

5. Высокая детализация в Kandinsky Video. Частота кадров для Kandinsky Video составляет 30 кадров в секунду

6. Обучение на большом датасете. Для тренировки Kandinsky Video использовался объёмный датасет, содержащий 300 000 пар «текст-видео». Это позволило достичь высокого качества генерации.

7. Двухблочная архитектура. В основе Kandinsky Video лежат два ключевых блока: генератор ключевых кадров и регулятор плавности движений. Их совместная работа даёт высокое качество конечного видео.

8. Использование Kandinsky 3.0. В качестве генератора отдельных кадров в Kandinsky Video применяется улучшенная версия базовой модели Kandinsky 3.0. Это позволяет достичь плавности и реалистичности анимации.