Использует двухэтапную архитектуру: сначала генерирует ключевые кадры, задающие основную сюжетную линию, затем синтезирует интерполяционные кадры для плавности движений.
Основана на предобученной модели Kandinsky 3.0 для генерации изображений. Использует её веса для инициализации пространственных слоёв.
Достигает разрешения 512x512 пикселей и 30 FPS.
Превосходит по качеству (метрики FVD и CLIPSIM) open-source-аналоги. Занимает 2 место среди всех моделей.
Генерирует видео длительностью до 241 кадра менее чем за 3 минуты. Это в 3 раза быстрее, чем аналоги.