Как работает LLM изнутри: от токена до ответа

Подготовлено редакцией Malakhov AI

Habr AI·2 дня назад·3 минРоссияКод

LLM не ищет ответ в базе данных — она предсказывает следующий токен, повторяя эту операцию миллиарды раз. Из этой одной задачи вырастает система, способная объяснять физику, писать код и убедительно ошибаться.

Кратко

—Текст разбивается на токены алгоритмом BPE — статистически удобные единицы из словаря в 50–100 тысяч элементов.
—Каждый токен превращается в вектор-эмбеддинг из тысяч чисел, кодирующих смысловые отношения.
—Механизм self-attention позволяет каждому токену «смотреть» на все остальные одновременно, а не последовательно.
—На выходе модель даёт не слово, а распределение вероятностей по всему словарю; параметры temperature и top-p управляют выбором.
—Веса модели — спрессованные знания: в крупных моделях их более триллиона, и они кодируют факты, стили и логические паттерны.

Глоссарий · 7 терминов▾

Токен: Минимальная единица текста для языковой модели — не слово и не буква, а статистически удобный фрагмент, определяемый алгоритмом BPE.
BPE (Byte Pair Encoding): Алгоритм токенизации, который объединяет самые частые пары символов в один токен, формируя словарь из 50–100 тысяч единиц.
Эмбеддинг: Числовой вектор, кодирующий смысл токена: близкие по смыслу слова получают близкие векторы в многомерном пространстве.
Self-attention: Механизм трансформера, при котором каждый токен одновременно сравнивается со всеми остальными токенами в контексте для определения их взаимной важности.
Temperature: Параметр сэмплинга: низкое значение делает ответы предсказуемыми, высокое — разнообразными и склонными к галлюцинациям.
Top-p: Параметр, ограничивающий выбор следующего токена только теми вариантами, суммарная вероятность которых не превышает заданного порога.
Авторегрессия: Принцип генерации текста, при котором каждый новый токен добавляется к контексту и становится входом для предсказания следующего.

Когда пользователь отправляет сообщение языковой модели, первое, что происходит с текстом — он перестаёт быть текстом. Алгоритм BPE (Byte Pair Encoding) разбивает его на токены: статистически удобные единицы, которые не совпадают ни со словами, ни с буквами. Словарь типичной модели содержит 50–100 тысяч таких единиц. Именно поэтому модели хуже справляются с редкими языками — каждое слово дробится на множество мелких кусков и быстро «съедает» контекстное окно. Отсюда же классический провал с подсчётом букв: модель видит токены, а не символы.

Каждый токен затем превращается в эмбеддинг — вектор из нескольких тысяч чисел. Это не ручная разметка: числа получаются автоматически в процессе обучения. В многомерном пространстве эмбеддингов «кошка» и «собака» оказываются рядом, а разность векторов «король» и «мужчина», сложенная с «женщиной», даёт вектор, близкий к «королеве». Смысловые отношения буквально закодированы в числах.

Сердце архитектуры трансформера — механизм self-attention. До его появления нейросети обрабатывали текст последовательно, и к концу длинного предложения начало уже «забывалось». Трансформер смотрит на все токены сразу: для каждого вычисляются три вектора — Query, Key и Value, — и каждый токен сравнивает свой запрос с ключами всех остальных, получая веса важности. В современных моделях таких «голов» внимания несколько десятков: одни следят за синтаксисом, другие — за кореференциями, третьи — за тематическими связями. Всё параллельно.

Каждый токен превращается в вектор-эмбеддинг из тысяч чисел, кодирующих смысловые отношения.

Трансформер состоит из множества таких блоков, уложенных стопкой. Нижние слои улавливают поверхностные паттерны — части речи, грамматику. Средние работают с семантикой. Верхние отвечают за нечто похожее на рассуждение: факты, логика, контекст всего разговора. К верхнему слою каждый токен уже «знает» о себе всё, что можно было извлечь из окружения.

На выходе модель не называет следующее слово — она выдаёт распределение вероятностей по всему словарю. «Москва — столица» → «России» 78%, «нашей» 9%, «бывшего» 3%... Конкретный токен выбирается через сэмплинг, которым управляют два параметра API. Temperature близкая к нулю делает ответы предсказуемыми и повторяющимися; высокая — выравнивает вероятности и открывает путь к неожиданным, а иногда и галлюцинаторным ответам. Top-p ограничивает выбор «ядром» наиболее вероятных токенов, отсекая длинный хвост маловероятных вариантов.

Генерация идёт токен за токеном — авторегрессивно. Выбранный токен добавляется к контексту, и вся процедура запускается заново. Ответ появляется постепенно не ради анимации, а потому что именно так устроена генерация. Из этого следует важное ограничение: модель не может «передумать» посередине предложения. Написав «Я согласен», она продолжает генерировать в контексте этого согласия — даже если по логике нужно было написать обратное. Именно поэтому техника chain-of-thought («думай шаг за шагом») реально работает: промежуточные токены-рассуждения влияют на финальный ответ.

Сама архитектура ничего не умеет без обучения. Задача при обучении проста: скрыть последнее слово в тексте, попросить модель угадать, сравнить с правильным ответом, скорректировать веса. Повторить триллион раз. В крупных моделях весов более триллиона — это спрессованные знания: факты, стили, причинно-следственные связи, закодированные не в виде базы данных, а в виде миллиардов слегка подкрученных чисел.

Несколько следствий из этой архитектуры удивляют даже тех, кто давно работает с моделями. Self-attention вычислительно стоит O(n²) от длины контекста: удвоение длины даёт вчетверо больше вычислений, поэтому контекстное окно в миллион токенов — серьёзная инженерная задача, а не просто «добавили памяти». Между вызовами модель не хранит никакого состояния: «память» чата — это длинный текстовый файл, который растёт с каждым сообщением. Наконец, галлюцинации — не баг и не отдельная проблема: тот же механизм обобщения, который позволяет модели отвечать на вопросы, которых не было в обучающих данных, заставляет её иногда уверенно придумывать несуществующие факты.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NVIDIA и LG Group построят ИИ-фабрику для физического ИИ и робототехники

Продолжить по разделам

Как работает LLM изнутри: от токена до ответа

Кратко

Читать дальше

LLM-модели сыграли в «Бункер»: как ИИ ведёт переговоры под давлением

MWS ИИ и «Нейролаб» создают единую методологию оценки ROI от ИИ в нефтегазе

NVIDIA и LG Group построят ИИ-фабрику для физического ИИ и робототехники