Одним из первых примеров генерации видео по тексту стала модель Make-A-Video от компании Meta. Она получает на вход текстовое описание, например, «Собака бежит по пляжу», преобразует его в векторное представление с помощью эмбеддингов. Затем использует диффузионную модель для генерации сразу 16 изображений, на которых собака должна бежать по пляжу в разных позах. После чего повышает разрешение изображений и склеивает их в короткое видео длиной 5-10 секунд.
Другой пример — модель Imagen от Google, которая также использует диффузионный подход. Но в отличие от Make-A-Video, она обучалась не только на парах «текст-изображение», но и «текст-видео». Это позволяет ей лучше понимать движение объектов в соответствии с текстовым описанием.
Более сложные модели, такие как Phenaki от Google, используют комбинацию алгоритмов. Сначала видео кодируется в последовательность токенов при помощи специального кодировщика. Затем текстовый запрос обрабатывается нейросетью-трансформером, которая генерирует последовательность видеотокенов. После чего эта последовательность декодируется в результирующее видео.
Такой подход позволяет создавать минутные видео с детализированными сюжетами. Например, по запросу «Девушка готовит яичницу и танцует в наушниках» может быть сгенерировано видео, где персонаж выполняет именно эти действия. Phenaki обучалась как на парах «текст-видео», так и «текст-изображение», что улучшает качество генерации.