1.1. LLM: что такое большие языковые модели

Сначала нейросети были источником шуток: они рисовали людей и животных со странными конечностями и часто «галлюцинировали» — давали глупые ответы на простые вопросы. Но искусственный интеллект быстро учится, за что его уже несколько лет используют в бизнесе, науке, на производстве и, конечно, в быту.

Нейросети могут ощутимо экономить наше время и силы, решая рутинные задачи. Они делают за пару мгновений то, что у нас может занять долгие минуты и часы. Они уже умеют генерировать самые разные тексты:

отвечать на вопросы, писать письма и списки дел;
составлять расписания занятий и тренировок, планы туристических маршрутов и рецепты блюд;
писать технические инструкции и код на разных языках программирования,
сочинять сценарии, сказки и многое другое.

Некоторые нейросети могут создавать изображения, музыку и видео — но об этом чуть позже.

Как это работает? GigaChat, как и GPT, это большая языковая модель (или Large Language Model, LLM), которая учится, анализируя содержание книг, статей, инструкций, диалогов и веб-страниц. Обрабатывая информацию, модель запоминает, как строятся предложения в языке, какие слова часто используются вместе и какие темы связаны между собой. В результате она обучается отвечать на вопросы и поддерживать диалог.

Почти как человек, только модель не понимает смысла слов, как его понимаем мы. Если задать ей вопрос, она даст ответ, похожий на те многочисленные тексты, которые ей знакомы.

Если ответ не подходит по содержанию, форме или глубине, модель можно дообучить, используя дополнительные данные и задавая параметры её ответа:

Первая стадия обучения — Pretraining, обучение базовой языковой модели. На этом этапе она изучает большой массив данных по огромному количеству параметров и учится предсказывать следующее слово в тексте, используя распределение вероятностей. То есть, если дать базовой модели последовательность слов, она выдаст следующее, наиболее вероятное слово.

Параметры модели — это различные переменные, которые могут меняться в процессе обучения. Эти параметры можно сравнить с нейронными связями в нашем мозге — чем их больше, тем умнее считается модель. Языковую модель можно назвать большой, если она содержит более миллиарда таких параметров.

Вторая стадия — дообучение, или Finetuning. На этом этапе языковая модель учится отвечать на конкретные вопросы, а не просто генерировать текст. Для этого используются чистые данные, собранные вручную: статьи, инструкции, диалоги на разные темы.

Так, над дообучением GigaChat работает большая команда лингвистов, биологов, инженеров, писателей, врачей, экономистов, юристов, историков.
После дообучения модель становится более «логичной»: она лучше «понимает», какой вопрос ей задают и как нужно на него ответить.

LLM могут быть мультимодальными, то есть распознавать и генерировать не только текст, но и аудио, картинки или видео. GigaChat также является мультимодальной моделью: он работает с текстом, умеет распознавать голос и создавать изображения.

Назад К следующему шагу