Agent Skills от Anthropic появились недавно, и уже в момент релиза стало понятно: это не очередное обновление интерфейса. Автор цикла статей, ведущий Telegram-канала @laxcity_lead, утверждает, что скиллы важнее MCP — предыдущего крупного шага Anthropic в сторону агентных систем. Чтобы объяснить почему, он начинает с самого начала: с того, как вообще устроены языковые модели.
Большинство популярных моделей — GPT-4o, Claude 3.5 Sonnet, Llama, Gemini — относятся к классу авторегрессивных трансформеров. Буква T в аббревиатуре GPT расшифровывается именно как Transformer. Принцип работы прост до неожиданности: модель берёт набор входящих токенов, выполняет над ними матричные операции с учётом весов и генерирует ровно один токен на выходе. Затем берёт этот токен, добавляет его к входящей последовательности и генерирует следующий. Так продолжается до появления специального токена конца вывода. Никакой магии — только статистика в масштабах, недоступных человеческому восприятию.
Токен — ключевое понятие для всех, кто платит за API или работает с агентами. Это не буква и не слово: токен занимает промежуточное положение, и его размер зависит от языка и токенизатора конкретной модели. Словари современных LLM насчитывают десятки и сотни тысяч токенов, причём каждая модель использует собственный токенизатор. Токены от одной модели не совместимы с другой. Токенизаторы исторически оптимизированы под английский язык, поэтому кириллица с её сложной морфологией разбивается менее эффективно: одно и то же предложение на русском «весит» в 2–3 раза больше токенов, чем на английском. Это напрямую влияет на стоимость запросов и на то, сколько информации помещается в контекстное окно.
Токен — базовая единица информации для модели; русский текст расходует в 2–3 раза больше токенов, чем аналогичный английский.
Веса — второй фундаментальный концепт. Это результат обучения модели: огромная многомерная таблица из миллиардов чисел (у крупных моделей — сотен миллиардов и триллионов). В этих числах закодированы все «знания» модели: каждое число определяет соответствие набора токенов какой-то характеристике, и именно их комбинация позволяет модели генерировать осмысленные ответы. Обучение модели — это процесс подбора весов так, чтобы предсказание следующего токена было максимально правдоподобным на заданном корпусе текста.
Различие между моделью и весами практически важно. Код трансформерной архитектуры может быть одним и тем же, но разные веса дают принципиально разное поведение. Именно поэтому существует open-source Llama от Meta: любой желающий может взять открытые код и веса, дообучить модель на собственном датасете и получить уникальное поведение. OpenAI, Anthropic и Google используют ту же архитектурную основу, но их веса — закрытые и уникальные. Строго говоря, когда говорят «Claude Sonnet лучше GPT-4o в кодинге», сравнивают не просто модели, а связку модель + веса + системный промпт.
Автор подчёркивает: термины вроде «thinking», «chain of thought» и «contemplation» создают у неподготовленного пользователя иллюзию, что модели обладают сознанием или близки к AGI — искусственному общему интеллекту, способному сравняться с человеком. На деле это по-прежнему статистическая машина предсказания токенов. Управлять ею можно только через входные данные — промпт. Именно здесь и начинается битва за контекст, которой посвящён весь цикл: Agent Skills от Anthropic, по версии автора, меняют правила этой битвы.


