Как работают LLM: токены, веса и почему контекст — главный ресурс

Habr AI·5 дней назад·3 минРоссияКод

GPT, Claude, Llama и Gemini — авторегрессивные трансформеры, которые генерируют текст по одному токену за раз, скармливая каждый результат себе обратно. Именно этот принцип определяет и стоимость работы с моделями, и лимиты, которые вводят провайдеры вроде Anthropic.

Кратко

—Все популярные LLM — GPT, Claude, Llama, Gemini — работают по одному принципу: предсказывают следующий токен на основе предыдущих.
—Токен — базовая единица информации для модели; русский текст расходует в 2–3 раза больше токенов, чем аналогичный английский.
—Веса модели — результат обучения: таблица из миллиардов чисел, в которой закодированы все «знания» модели.
—Модель и веса — разные сущности: один и тот же код с разными весами даёт принципиально разное поведение.
—Agent Skills от Anthropic, по оценке автора, значимее MCP и меняют подход к работе с агентами.

Глоссарий · 7 терминов▾

Авторегрессивный трансформер: Архитектура нейросети, которая генерирует текст последовательно — по одному токену за раз, используя все предыдущие токены как входные данные.
Токен: Базовая единица текста, с которой работает языковая модель: может соответствовать части слова, целому слову или знаку препинания в зависимости от токенизатора.
Веса модели: Многомерная таблица из миллиардов чисел, полученная в процессе обучения и определяющая поведение модели при обработке токенов.
Токенизатор: Алгоритм, который разбивает входной текст на токены перед подачей в модель; у каждой модели свой токенизатор.
AGI: Artificial General Intelligence — гипотетический искусственный интеллект, способный решать любые интеллектуальные задачи на уровне человека или выше.
MCP: Model Context Protocol — стандарт Anthropic для подключения внешних инструментов и источников данных к языковым моделям.
Agent Skills: Функциональность Anthropic, позволяющая Claude выполнять специализированные задачи через подключаемые модули-скиллы в агентных сценариях.

Agent Skills от Anthropic появились недавно, и уже в момент релиза стало понятно: это не очередное обновление интерфейса. Автор цикла статей, ведущий Telegram-канала @laxcity_lead, утверждает, что скиллы важнее MCP — предыдущего крупного шага Anthropic в сторону агентных систем. Чтобы объяснить почему, он начинает с самого начала: с того, как вообще устроены языковые модели.

Большинство популярных моделей — GPT-4o, Claude 3.5 Sonnet, Llama, Gemini — относятся к классу авторегрессивных трансформеров. Буква T в аббревиатуре GPT расшифровывается именно как Transformer. Принцип работы прост до неожиданности: модель берёт набор входящих токенов, выполняет над ними матричные операции с учётом весов и генерирует ровно один токен на выходе. Затем берёт этот токен, добавляет его к входящей последовательности и генерирует следующий. Так продолжается до появления специального токена конца вывода. Никакой магии — только статистика в масштабах, недоступных человеческому восприятию.

Токен — ключевое понятие для всех, кто платит за API или работает с агентами. Это не буква и не слово: токен занимает промежуточное положение, и его размер зависит от языка и токенизатора конкретной модели. Словари современных LLM насчитывают десятки и сотни тысяч токенов, причём каждая модель использует собственный токенизатор. Токены от одной модели не совместимы с другой. Токенизаторы исторически оптимизированы под английский язык, поэтому кириллица с её сложной морфологией разбивается менее эффективно: одно и то же предложение на русском «весит» в 2–3 раза больше токенов, чем на английском. Это напрямую влияет на стоимость запросов и на то, сколько информации помещается в контекстное окно.

Токен — базовая единица информации для модели; русский текст расходует в 2–3 раза больше токенов, чем аналогичный английский.

Веса — второй фундаментальный концепт. Это результат обучения модели: огромная многомерная таблица из миллиардов чисел (у крупных моделей — сотен миллиардов и триллионов). В этих числах закодированы все «знания» модели: каждое число определяет соответствие набора токенов какой-то характеристике, и именно их комбинация позволяет модели генерировать осмысленные ответы. Обучение модели — это процесс подбора весов так, чтобы предсказание следующего токена было максимально правдоподобным на заданном корпусе текста.

Различие между моделью и весами практически важно. Код трансформерной архитектуры может быть одним и тем же, но разные веса дают принципиально разное поведение. Именно поэтому существует open-source Llama от Meta: любой желающий может взять открытые код и веса, дообучить модель на собственном датасете и получить уникальное поведение. OpenAI, Anthropic и Google используют ту же архитектурную основу, но их веса — закрытые и уникальные. Строго говоря, когда говорят «Claude Sonnet лучше GPT-4o в кодинге», сравнивают не просто модели, а связку модель + веса + системный промпт.

Автор подчёркивает: термины вроде «thinking», «chain of thought» и «contemplation» создают у неподготовленного пользователя иллюзию, что модели обладают сознанием или близки к AGI — искусственному общему интеллекту, способному сравняться с человеком. На деле это по-прежнему статистическая машина предсказания токенов. Управлять ею можно только через входные данные — промпт. Именно здесь и начинается битва за контекст, которой посвящён весь цикл: Agent Skills от Anthropic, по версии автора, меняют правила этой битвы.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме