Генеративный ИИ

Для создания новых данных и контента применяется генеративный искусственный интеллект. В отличие от других видов ИИ, ориентированных на обработку существующих данных, генеративный ИИ способен самостоятельно создавать новую информацию. Он использует сложные алгоритмы и нейросети для генерации разнообразных цифровых объектов. Цель такого синтеза данных - расширение возможностей творчества и автоматизации рутинных задач в самых разных областях.

Генеративный искусственный интеллект - это тип ИИ, который использует алгоритмы генерации данных для создания новых информационных объектов, таких как текст, изображения, музыку и видео. В отличие от других типов ИИ, которые основаны на обучении на основе данных, генеративный ИИ способен создавать новые данные, которые не были предоставлены в исходном наборе
Генеративные модели искусственного интеллекта стали активно развиваться в последние годы на основе успехов в области глубокого обучения. Однако исторически первые идеи относятся еще к 1950-1960 годам. Тогда американский математик Клод Шеннон в своей работе "Игра в имитацию" описал концепцию "универсальной машины", которая могла бы имитировать поведение человека в диалоге.

В честь Клода Шеннона стартап Anthropic назвал свою языковую модель Claude.
Идею в дальнейшем развивал британский ученый Алан Тьюринг в своей статье "Вычислительные машины и разум". Он предложил тест, позволяющий оценить, насколько "разумно" ведет себя машина в общении.

Современное понимание генеративных моделей базируется на разработках в области нейронных сетей и глубокого обучения.

Развитие текстовых генеративных моделей получило мощный импульс в 2018 году с появлением модели GPT-1 от компании OpenAI. Это была первая большая нейронная сеть, обученная предсказывать следующее слово в тексте. Вслед за ней в 2020 году появилась GPT-3 - модель гораздо большего размера, способная уже генерировать целые тексты по заказу пользователя на английском языке.

В ноябре 2022 была представлена генеративная модель ChatGPT, вызвавшая ажиотаж благодаря своим впечатляющим навыками ведения диалога и генерации осмысленных текстов. В начале февраля 2023 года ChatGPT установил исторический рекорд по росту посетителей, привлекших более 100 миллионов активных пользователей.

Одним из ключевых элементов ChatGPT и других текстовых генеративных систем является LLM.

LLM (Large Language Model) – нейронная сеть, способную обрабатывать огромные объемы информации и генерировать тексты, которые могут быть похожи на человеческие. Это позволяет текстовым генеративным моделям создавать высококачественные ответы на запросы пользователей и поддерживать продуктивный диалог. На вход LLM получает промпт.

Промпт - это текстовый запрос для генеративной модели. Чем точнее промпт, тем лучше результат. Токен - минимальная часть промпта, обычно слово (или его часть) знак препинания.

Развитие генеративных моделей привело к появлению новой профессии - промпт-инженера.

Промпт инжиниринг - это умение создавать оптимальные промпты.Хороший промпт повышает качество результата. Надо учитывать контекст, стиль, параметры и особенности модели.
Несмотря на впечатляющие возможности ChatGPT и других LLM, есть обоснованные опасения относительно точности и надежности из за галлюцинаций.

Галлюцинации языковых моделей — когда система генерирует текст, который не имеет смысла или не соответствует действительности. Это может происходить в случаях, когда модель пытается создать текст, но не имеет достаточной информации.

Также, в 2022 году наблюдался бурный прогресс в разработке генеративных систем для синтеза изображений. Сразу несколько команд выпустили прорывные решения для фотореалистичной генерации изображений.

В марте была открыта для публики Midjourney - одна из первых доступных широкой аудитории моделей. Она быстро завоевала популярность благодаря выразительному стилю генерируемых изображений. Со временем модель улучшалась, добавлялись новые возможности. Наибольший резонанс вызвал случай с художником Джейсоном Алленом, занявшим первое место в конкурсе с работой (ниже), сгенерированной при помощи Midjourney.
Еще одним важнейшим событием стал выход Stable Diffusion в августе от группы компаний CompVis в Мюнхенском университете. В отличие от конкурентов, её исходный код полностью открыт. Это позволило запустить множество проектов на её основе.

Однако сгенерированные изображения не лишены недостатков. Часто возникают странные артефакты при изображении людей: искривленные конечности, неестественные позы, асимметричные лица. Также могут появляться лишние или деформированные части тела.

В 2022 году Сбер выпустил две версии своей нейросетевой модели генерации изображений по текстовому описанию - Kandinsky. Первая версия, представленная в июне, называлась ruDALL-E XXL и имела 12 млрд параметров. Вторая версия, Kandinsky 2.0, была анонсирована в ноябре. Она отличается мультиязычностью и использует диффузный подход в обучении на 1 млрд парах "текст-изображение".

В области генерации изображений в 2023 году произошло несколько знаковых событий. В марте сервис Midjourney вынужден был закрыть бесплатный пробный доступ из-за возросшего спроса и злоупотреблений, в том числе создания дипфейков. Также весной Midjourney столкнулась с критикой за цензуру определенных политических фигур. В мае сервис внедрил новую двухэтапную систему модерации на основе ИИ.

2023 год был богат и развитии текстовых генеративных моделей. В феврале количество активных пользователей ChatGPT достигло 100 млн человек. В марте вышло обновление ChatGPT-4 с расширенными функциями.

Однако гонка за созданием все более мощных моделей продолжалась. В марте компания Anthropic представила обновленную версию своего чат-бота Claude 2.0, которая превзошла по некоторым параметрам даже недавно вышедшую ChatGPT-4. В частности, Claude 2.0 получил гораздо большее контекстное окно и расширенные возможности генерации кода. Это позволило ему приблизиться к человеческим способностям в диалоге и понимании сложных текстов.

В мае 2023 года на арену вышла новая модель - GigaChat от Сбера. В отличие от англоязычного ChatGPT, GigaChat изначально ориентирована на русский язык и российский культурный контекст. Уже к концу года эта модель достигла полутора миллионов пользователей. В декабре была представлена усовершенствованная версия GigaChat Pro с 29 миллиардами параметров и расширенными возможностями. Таким образом, в 2023 году появился новый мощный игрок на поле генеративных моделей с акцентом на русскоязычную аудиторию.

В 2024 году модель Kandinsky получила свое развитие в версии 3.1, будучи обученной на датасете эстетичных изображений и вошла в ТОП-5 передовых нейросетей для генерации изображений по версии одного из ведущих европейских изданий TechBullion.

Попробовать актуальную версию нейросети Kandinsky можно на специальном онлайн-сервисе Fusion Brain.