1.1 LLM: что такое большие языковые модели
Подробнее

Здесь могут быть эпизоды, транскрибация
и материалы к видео
Транскрибация

В курсе мы часто будем упоминать языковые модели — LLM, Large Language Model. Далее расскажем про их основные параметры и ограничения.
Большие языковые модели (Large Language Model, LLM) — это модели машинного обучения, которые умеют анализировать и генерировать текст на естественном языке. Они содержат огромное количество параметров и обучаются на больших массивах текстовых данных. Яркие примеры таких моделей: GPT-4, Llama-2-70b и GigaChat.

Параметры модели — это различные переменные, которые могут меняться в процессе обучения. Эти параметры можно сравнить с нейронными связями в нашем мозге — чем их больше, тем умнее считается модель. Языковую модель можно назвать большой, если она содержит более миллиарда таких параметров. К слову, в основе GigaChat лежит языковая модель с 29 млрд параметров.

Чтобы LLM могла работать с большим количеством переменных, её надо обучить. Этот процесс имеет две основные стадии.

Первая — Pretraining, обучение базовой модели. На этом этапе она изучает огромный массив данных из интернета и учится предсказывать следующее слово в тексте, используя распределение вероятностей. Простыми словами: если дать базовой модели последовательность слов, она выдаст следующее, наиболее вероятное слово. Иногда языковые модели могут галлюцинировать: придумывать правдоподобную, но совершенно нелепую информацию. Например, рассказывать о нереальных исторических событиях или личностях, которых никогда не существовало.

Вторая стадия — дообучение, или Fine-tuning. На этом этапе модель учится отвечать на конкретные вопросы, а не просто генерировать текст. Для этого используются чистые данные, собранные вручную: статьи, инструкции, диалоги на разные темы. Так, над дообучением GigaChat работает большая команда экспертов: лингвисты, биологи, инженеры, писатели, врачи, экономисты, юристы, историки. После дообучения модель становится более «логичной»: она лучше понимает, какой вопрос ей задают и как нужно на него ответить.

LLM могут быть мультимодальными, то есть распознавать и генерировать не только текст, но и аудио, картинки или видео. GigaChat также является мультимодальной моделью: он работает с текстом, умеет распознавать голос и создавать изображения.