2.5 Архитектура и принципы работы Kandinsky Video
Архитектура Kandinsky Video включает два ключевых блока: первый формирует основные кадры, определяющие структуру видеосюжета, а второй генерирует интерполяционные кадры для плавности движений в окончательном видео. Эти блоки базируются на новой модели синтеза изображений по текстовым описаниям Kandinsky 3.0.

Созданные этой нейросетью видеоролики представляют собой непрерывные сцены с движением объектов и фона. Они отличаются от анимационных видеороликов, где динамика обычно достигается перемещением камеры относительно статичной сцены. Разрешение видео, создаваемого моделью Kandinsky Video, составляет 512х512 пикселей с различными пропорциями сторон. Нейросеть обучалась на более чем 300 тыс. парах «текст-видео», и время генерации видео может достигать до трёх минут.

Подробности можно прочитать в статьях:

Kandinsky Video — первая российская модель генерации видео по тексту

Kandinsky Video