Еще одним важнейшим событием стал выход Stable Diffusion в августе от группы компаний CompVis в Мюнхенском университете. В отличие от конкурентов, её исходный код полностью открыт. Это позволило запустить множество проектов на её основе.
Однако сгенерированные изображения не лишены недостатков. Часто возникают странные артефакты при изображении людей: искривленные конечности, неестественные позы, асимметричные лица. Также могут появляться лишние или деформированные части тела.
В 2022 году Сбер выпустил две версии своей нейросетевой модели генерации изображений по текстовому описанию - Kandinsky. Первая версия, представленная в июне, называлась ruDALL-E XXL и имела 12 млрд параметров. Вторая версия, Kandinsky 2.0, была анонсирована в ноябре. Она отличается мультиязычностью и использует диффузный подход в обучении на 1 млрд парах "текст-изображение".
В области генерации изображений в 2023 году произошло несколько знаковых событий. В марте сервис Midjourney вынужден был закрыть бесплатный пробный доступ из-за возросшего спроса и злоупотреблений, в том числе создания дипфейков. Также весной Midjourney столкнулась с критикой за цензуру определенных политических фигур. В мае сервис внедрил новую двухэтапную систему модерации на основе ИИ.
2023 год был богат и развитии текстовых генеративных моделей. В феврале количество активных пользователей ChatGPT достигло 100 млн человек. В марте вышло обновление ChatGPT-4 с расширенными функциями.
Однако гонка за созданием все более мощных моделей продолжалась. В марте компания Anthropic представила обновленную версию своего чат-бота Claude 2.0, которая превзошла по некоторым параметрам даже недавно вышедшую ChatGPT-4. В частности, Claude 2.0 получил гораздо большее контекстное окно и расширенные возможности генерации кода. Это позволило ему приблизиться к человеческим способностям в диалоге и понимании сложных текстов.
В мае 2023 года на арену вышла новая модель - GigaChat от Сбера. В отличие от англоязычного ChatGPT, GigaChat изначально ориентирована на русский язык и российский культурный контекст. Уже к концу года эта модель достигла полутора миллионов пользователей. В декабре была представлена усовершенствованная версия GigaChat Pro с 29 миллиардами параметров и расширенными возможностями. Таким образом, в 2023 году появился новый мощный игрок на поле генеративных моделей с акцентом на русскоязычную аудиторию.
В 2024 году модель Kandinsky получила свое развитие в версии 3.1, будучи обученной на датасете эстетичных изображений и вошла в ТОП-5 передовых нейросетей для генерации изображений по версии одного из ведущих европейских изданий TechBullion.
Попробовать актуальную версию нейросети Kandinsky можно на специальном онлайн-сервисе
Fusion Brain.