Большинство подходов к улучшению языковых моделей упираются в одно: нужно менять веса. Это дорого, требует данных и закрыто для большинства пользователей. SkillOpt предлагает другой путь — обучать не модель, а документ, который она читает.

Скиллы — текстовые документы с процедурами, правилами использования инструментов, форматами вывода и типичными ошибками — уже стали стандартом в коммерческих продуктах. Anthropic встроила модульную систему скиллов в Claude: в зависимости от задачи модель автоматически загружает нужный набор инструкций. Проблема в том, что такие документы либо пишут вручную, либо генерируют за один проход языковой моделью, либо слабо редактируют самостоятельно. Ни один из этих подходов не является настоящей оптимизацией — нет гарантии, что скилл после правки стал лучше.

Метод сравненияПодход к созданию скилла
Handwritten skillsНаписан вручную экспертом
One-shot LLM skillsСгенерирован языковой моделью за один проход
Trace2SkillСпециализированный метод извлечения из трасс
TextGradОптимизация текста через градиентоподобные сигналы
GEPAСпециализированный метод оптимизации агентных промптов
EvoSkillЭволюционный подход к улучшению скиллов
SkillOptИтеративное обучение документа с валидацией каждой правки

SkillOpt меняет это. Документ с инструкциями превращается в обучаемое состояние замороженной целевой модели. Вторая, отдельная языковая модель выступает оптимизатором: она читает логи работы агента, выявляет повторяющиеся паттерны ошибок и успехов, затем предлагает точечные правки — добавить, удалить или заменить отдельные фрагменты. Правка принимается только если она улучшает результат на отложенной валидационной выборке.

На GPT-5.5 средний прирост по шести бенчмаркам составил около 23 пунктов; наибольший эффект — на задачах с жёсткими форматными требованиями.

The target model stays frozen while a second model suggests small skill edits that are only accepted after passing validation. | Image: Yang et al.
The target model stays frozen while a second model suggests small skill edits that are only accepted after passing validation. | Image: Yang et al. · Источник: The Decoder

Авторы перенесли ключевые концепции глубокого обучения на текстовый уровень. Аналог learning rate ограничивает число принятых правок за один шаг. Планировщик уменьшает «шаг» от эпохи к эпохе. Отклонённые правки попадают в буфер и служат отрицательными примерами для последующей рефлексии оптимизатора. В конце каждой эпохи применяется медленное обновление, сохраняющее стабильные направления правок — аналог сглаживания градиентов в классическом обучении.

Метод тестировали на шести бенчмаркax: поиск, работа с таблицами, анализ документов, математика и навигация в виртуальной среде. В качестве целевых моделей использовались семь систем, включая GPT-5.5 и компактный Qwen3.5-4B. Задачи запускались как в режиме прямого чата, так и в агентных средах Codex и Claude Code. SkillOpt превзошёл или сравнялся с лучшим конкурентом во всех комбинациях — против рукописных скиллов, однопроходных LLM-скиллов и специализированных методов вроде Trace2Skill, TextGrad, GEPA и EvoSkill. На GPT-5.5 в прямом чате средний прирост по всем шести бенчмаркам составил около 23 пунктов.

Один из ключевых результатов — переносимость. Скилл, обученный на крупной модели, улучшает меньшие модели того же семейства. Скилл для работы с таблицами, обученный в среде Codex, без изменений работает в Claude Code и поднимает там результаты до уровня скилла, обученного непосредственно в Claude Code. Математический скилл, оптимизированный на олимпиадных задачах, даёт прирост на смежном бенчмарке без переобучения.

Финальные документы остаются компактными: не более 2 000 токенов, а улучшения достигаются за одну-четыре принятые правки за четыре эпохи обучения. На бенчмарке OfficeQA наибольший прирост дала единственная принятая правка. Выученные правила читаются как заметки опытного практика: для таблиц — сначала проверить структуру листа и записывать вычисленные значения напрямую, а не через формулы Excel; для навигационных задач — вести лог посещённых локаций и не идти к цели, не подобрав нужный объект; для документных вопросов — сначала привязать вопрос к нужной строке таблицы.

Across training rounds, the method typically picks skills that also perform well on unseen test data. | Image: Yang et al.
Across training rounds, the method typically picks skills that also perform well on unseen test data. | Image: Yang et al. · Источник: The Decoder

Аблационные эксперименты показывают, почему важна каждая составляющая. Без ограничения бюджета правок скилл слишком сильно отклоняется от исходного. Без буфера отклонённых правок оптимизатор повторяет одни и те же ошибки. Удаление медленного обновления в конце эпохи стоит более двадцати пунктов на SpreadsheetBench — это наибольшее падение во всём эксперименте.

Авторы честно обозначают ограничения. Метод зависит от надёжной автоматической оценки: для открытых задач, где успех сложно измерить, потребуются человеческие или модельные суждения. Кроме того, SkillOpt оптимизирует один документ, а не библиотеку скиллов — это может стать узким местом в доменах с высокой вариативностью задач.

В более широком контексте самосовершенствования моделей SkillOpt занимает нишу минимального вмешательства. OpenClaw-RL от исследователей Princeton использует сигналы каждого взаимодействия как живой источник обучения. MetaClaw извлекает поведенческие правила из провальных задач и обновляет веса через reinforcement learning в фоновом режиме. AutoTTS позволяет агенту самому искать алгоритмы управления рассуждением. Hyperagents от Meta оптимизируют сам механизм самосовершенствования. SkillOpt на этом фоне выглядит намеренно скромно: модель заморожена, меняется только читаемый текстовый файл. Для организаций, которые не имеют доступа к весам модели и не могут позволить себе дообучение, это практически значимый результат.