2.1 Основные принципы генерации text-to-video
Одним из первых примеров генерации видео по тексту стала модель Make-A-Video от компании Meta. Она получает на вход текстовое описание, например, «Собака бежит по пляжу», преобразует его в векторное представление с помощью эмбеддингов. Затем использует диффузионную модель для генерации сразу 16 изображений, на которых собака должна бежать по пляжу в разных позах. После чего повышает разрешение изображений и склеивает их в короткое видео длиной 5-10 секунд.

Другой пример — модель Imagen от Google, которая также использует диффузионный подход. Но в отличие от Make-A-Video, она обучалась не только на парах «текст-изображение», но и «текст-видео». Это позволяет ей лучше понимать движение объектов в соответствии с текстовым описанием.
Более сложные модели, такие как Phenaki от Google, используют комбинацию алгоритмов. Сначала видео кодируется в последовательность токенов при помощи специального кодировщика. Затем текстовый запрос обрабатывается нейросетью-трансформером, которая генерирует последовательность видеотокенов. После чего эта последовательность декодируется в результирующее видео.

Такой подход позволяет создавать минутные видео с детализированными сюжетами. Например, по запросу «Девушка готовит яичницу и танцует в наушниках» может быть сгенерировано видео, где персонаж выполняет именно эти действия. Phenaki обучалась как на парах «текст-видео», так и «текст-изображение», что улучшает качество генерации.
Таким образом, современные нейросетевые модели умеют генерировать как короткие видеоролики из нескольких согласованных кадров, так и длинные сюжетные видео на основе подробных текстовых описаний желаемых сцен. Перспективы развития данной области очень широки.