1.3 Базовые понятия курса: промпт, токен и размер контекста
Подробнее
Здесь могут быть эпизоды, транскрибация и материалы к видео
Транскрибация
В курсе мы будем часто использовать такие термины, как промпт, токен и длина контекста (диалога). Разберёмся, что это такое.
Для общения с GigaChat мы используем промпты.
Промпт — это текстовый запрос к модели (от англ. prompt — «запрос» или «подсказка»). Промпт может быть простым и коротким (например, вопрос «Куда сходить в Москве?») либо содержать длинную инструкцию и фрагмент текста.
Чтобы получить качественный ответ, важно правильно сформулировать запрос. Он должен чётко описывать задачу и не допускать двойного толкования. При создании промптов можно использовать дополнительные элементы: добавить контекст, задать роль, стиль текста и формат ответа. Подробнее об этом мы расскажем в следующем уроке.
Промпты пользователя и ответы GigaChat состоят из токенов.
Токен — базовая единица для обработки и генерации текста в LLM. В среднем один токен состоит из 3–5 символов. Это может быть целое слово или слог, специальный знак или цифра.
Например, слово «привет» часто встречается в русском языке и записывается одним токеном. В то время как слово «синхрофазотрон» используется редко и генерируется по кусочкам.
У каждой LLM есть словарь токенов, которые она использует для анализа и создания текста.
В последней версии GigaChat Pro этот словарь включает 42 000 токенов.
Память любой генеративной модели ограничена. В GigaChat промпт с контекстом и ответ модели может содержать до 4096 токенов. Это около 16 000 знаков на русском языке или примерно шесть страниц A4, набранных 14-м кеглем.