Большинство подходов к улучшению языковых моделей упираются в одно: нужно менять веса. Это дорого, требует данных и закрыто для большинства пользователей. SkillOpt предлагает другой путь — обучать не модель, а документ, который она читает.
Скиллы — текстовые документы с процедурами, правилами использования инструментов, форматами вывода и типичными ошибками — уже стали стандартом в коммерческих продуктах. Anthropic встроила модульную систему скиллов в Claude: в зависимости от задачи модель автоматически загружает нужный набор инструкций. Проблема в том, что такие документы либо пишут вручную, либо генерируют за один проход языковой моделью, либо слабо редактируют самостоятельно. Ни один из этих подходов не является настоящей оптимизацией — нет гарантии, что скилл после правки стал лучше.
| Метод сравнения | Подход к созданию скилла |
|---|---|
| Handwritten skills | Написан вручную экспертом |
| One-shot LLM skills | Сгенерирован языковой моделью за один проход |
| Trace2Skill | Специализированный метод извлечения из трасс |
| TextGrad | Оптимизация текста через градиентоподобные сигналы |
| GEPA | Специализированный метод оптимизации агентных промптов |
| EvoSkill | Эволюционный подход к улучшению скиллов |
| SkillOpt | Итеративное обучение документа с валидацией каждой правки |
SkillOpt меняет это. Документ с инструкциями превращается в обучаемое состояние замороженной целевой модели. Вторая, отдельная языковая модель выступает оптимизатором: она читает логи работы агента, выявляет повторяющиеся паттерны ошибок и успехов, затем предлагает точечные правки — добавить, удалить или заменить отдельные фрагменты. Правка принимается только если она улучшает результат на отложенной валидационной выборке.
На GPT-5.5 средний прирост по шести бенчмаркам составил около 23 пунктов; наибольший эффект — на задачах с жёсткими форматными требованиями.

Авторы перенесли ключевые концепции глубокого обучения на текстовый уровень. Аналог learning rate ограничивает число принятых правок за один шаг. Планировщик уменьшает «шаг» от эпохи к эпохе. Отклонённые правки попадают в буфер и служат отрицательными примерами для последующей рефлексии оптимизатора. В конце каждой эпохи применяется медленное обновление, сохраняющее стабильные направления правок — аналог сглаживания градиентов в классическом обучении.
Метод тестировали на шести бенчмаркax: поиск, работа с таблицами, анализ документов, математика и навигация в виртуальной среде. В качестве целевых моделей использовались семь систем, включая GPT-5.5 и компактный Qwen3.5-4B. Задачи запускались как в режиме прямого чата, так и в агентных средах Codex и Claude Code. SkillOpt превзошёл или сравнялся с лучшим конкурентом во всех комбинациях — против рукописных скиллов, однопроходных LLM-скиллов и специализированных методов вроде Trace2Skill, TextGrad, GEPA и EvoSkill. На GPT-5.5 в прямом чате средний прирост по всем шести бенчмаркам составил около 23 пунктов.
Один из ключевых результатов — переносимость. Скилл, обученный на крупной модели, улучшает меньшие модели того же семейства. Скилл для работы с таблицами, обученный в среде Codex, без изменений работает в Claude Code и поднимает там результаты до уровня скилла, обученного непосредственно в Claude Code. Математический скилл, оптимизированный на олимпиадных задачах, даёт прирост на смежном бенчмарке без переобучения.
Финальные документы остаются компактными: не более 2 000 токенов, а улучшения достигаются за одну-четыре принятые правки за четыре эпохи обучения. На бенчмарке OfficeQA наибольший прирост дала единственная принятая правка. Выученные правила читаются как заметки опытного практика: для таблиц — сначала проверить структуру листа и записывать вычисленные значения напрямую, а не через формулы Excel; для навигационных задач — вести лог посещённых локаций и не идти к цели, не подобрав нужный объект; для документных вопросов — сначала привязать вопрос к нужной строке таблицы.

Аблационные эксперименты показывают, почему важна каждая составляющая. Без ограничения бюджета правок скилл слишком сильно отклоняется от исходного. Без буфера отклонённых правок оптимизатор повторяет одни и те же ошибки. Удаление медленного обновления в конце эпохи стоит более двадцати пунктов на SpreadsheetBench — это наибольшее падение во всём эксперименте.
Авторы честно обозначают ограничения. Метод зависит от надёжной автоматической оценки: для открытых задач, где успех сложно измерить, потребуются человеческие или модельные суждения. Кроме того, SkillOpt оптимизирует один документ, а не библиотеку скиллов — это может стать узким местом в доменах с высокой вариативностью задач.
В более широком контексте самосовершенствования моделей SkillOpt занимает нишу минимального вмешательства. OpenClaw-RL от исследователей Princeton использует сигналы каждого взаимодействия как живой источник обучения. MetaClaw извлекает поведенческие правила из провальных задач и обновляет веса через reinforcement learning в фоновом режиме. AutoTTS позволяет агенту самому искать алгоритмы управления рассуждением. Hyperagents от Meta оптимизируют сам механизм самосовершенствования. SkillOpt на этом фоне выглядит намеренно скромно: модель заморожена, меняется только читаемый текстовый файл. Для организаций, которые не имеют доступа к весам модели и не могут позволить себе дообучение, это практически значимый результат.



