Архитектура Kandinsky Video включает два ключевых блока: первый формирует основные кадры, определяющие структуру видеосюжета, а второй генерирует интерполяционные кадры для плавности движений в окончательном видео. Эти блоки базируются на новой модели синтеза изображений по текстовым описаниям Kandinsky 3.0.
Созданные этой нейросетью видеоролики представляют собой непрерывные сцены с движением объектов и фона. Они отличаются от анимационных видеороликов, где динамика обычно достигается перемещением камеры относительно статичной сцены. Разрешение видео, создаваемого моделью Kandinsky Video, составляет 512х512 пикселей с различными пропорциями сторон. Нейросеть обучалась на более чем 300 тыс. парах «текст-видео», и время генерации видео может достигать до трёх минут.
Подробности можно прочитать в статьях:
Kandinsky Video — первая российская модель генерации видео по текстуKandinsky Video