Когда пользователь отправляет сообщение языковой модели, первое, что происходит с текстом — он перестаёт быть текстом. Алгоритм BPE (Byte Pair Encoding) разбивает его на токены: статистически удобные единицы, которые не совпадают ни со словами, ни с буквами. Словарь типичной модели содержит 50–100 тысяч таких единиц. Именно поэтому модели хуже справляются с редкими языками — каждое слово дробится на множество мелких кусков и быстро «съедает» контекстное окно. Отсюда же классический провал с подсчётом букв: модель видит токены, а не символы.
Каждый токен затем превращается в эмбеддинг — вектор из нескольких тысяч чисел. Это не ручная разметка: числа получаются автоматически в процессе обучения. В многомерном пространстве эмбеддингов «кошка» и «собака» оказываются рядом, а разность векторов «король» и «мужчина», сложенная с «женщиной», даёт вектор, близкий к «королеве». Смысловые отношения буквально закодированы в числах.
Сердце архитектуры трансформера — механизм self-attention. До его появления нейросети обрабатывали текст последовательно, и к концу длинного предложения начало уже «забывалось». Трансформер смотрит на все токены сразу: для каждого вычисляются три вектора — Query, Key и Value, — и каждый токен сравнивает свой запрос с ключами всех остальных, получая веса важности. В современных моделях таких «голов» внимания несколько десятков: одни следят за синтаксисом, другие — за кореференциями, третьи — за тематическими связями. Всё параллельно.
Каждый токен превращается в вектор-эмбеддинг из тысяч чисел, кодирующих смысловые отношения.
Трансформер состоит из множества таких блоков, уложенных стопкой. Нижние слои улавливают поверхностные паттерны — части речи, грамматику. Средние работают с семантикой. Верхние отвечают за нечто похожее на рассуждение: факты, логика, контекст всего разговора. К верхнему слою каждый токен уже «знает» о себе всё, что можно было извлечь из окружения.
На выходе модель не называет следующее слово — она выдаёт распределение вероятностей по всему словарю. «Москва — столица» → «России» 78%, «нашей» 9%, «бывшего» 3%... Конкретный токен выбирается через сэмплинг, которым управляют два параметра API. Temperature близкая к нулю делает ответы предсказуемыми и повторяющимися; высокая — выравнивает вероятности и открывает путь к неожиданным, а иногда и галлюцинаторным ответам. Top-p ограничивает выбор «ядром» наиболее вероятных токенов, отсекая длинный хвост маловероятных вариантов.
Генерация идёт токен за токеном — авторегрессивно. Выбранный токен добавляется к контексту, и вся процедура запускается заново. Ответ появляется постепенно не ради анимации, а потому что именно так устроена генерация. Из этого следует важное ограничение: модель не может «передумать» посередине предложения. Написав «Я согласен», она продолжает генерировать в контексте этого согласия — даже если по логике нужно было написать обратное. Именно поэтому техника chain-of-thought («думай шаг за шагом») реально работает: промежуточные токены-рассуждения влияют на финальный ответ.
Сама архитектура ничего не умеет без обучения. Задача при обучении проста: скрыть последнее слово в тексте, попросить модель угадать, сравнить с правильным ответом, скорректировать веса. Повторить триллион раз. В крупных моделях весов более триллиона — это спрессованные знания: факты, стили, причинно-следственные связи, закодированные не в виде базы данных, а в виде миллиардов слегка подкрученных чисел.
Несколько следствий из этой архитектуры удивляют даже тех, кто давно работает с моделями. Self-attention вычислительно стоит O(n²) от длины контекста: удвоение длины даёт вчетверо больше вычислений, поэтому контекстное окно в миллион токенов — серьёзная инженерная задача, а не просто «добавили памяти». Между вызовами модель не хранит никакого состояния: «память» чата — это длинный текстовый файл, который растёт с каждым сообщением. Наконец, галлюцинации — не баг и не отдельная проблема: тот же механизм обобщения, который позволяет модели отвечать на вопросы, которых не было в обучающих данных, заставляет её иногда уверенно придумывать несуществующие факты.



