SkillOpt от Microsoft улучшает GPT-5.5 на 23 пункта с помощью обученного Markdown-файла

Подготовлено редакцией Malakhov AI

The Decoder·13 июн.·4 минИсследованияИндустрия

Исследователи Microsoft и трёх китайских университетов добились роста GPT-5.5 на 23 пункта на процедурных задачах, не изменив ни одного веса модели — только обучив текстовый документ с инструкциями. Метод называется SkillOpt и переносит логику градиентного спуска на уровень обычного Markdown-файла.

Кратко

—SkillOpt обучает документ с инструкциями («скилл») как внешнее состояние замороженной модели — веса не трогаются.
—На GPT-5.5 средний прирост по шести бенчмаркам составил около 23 пунктов; наибольший эффект — на задачах с жёсткими форматными требованиями.
—Скилл, обученный на крупной модели, переносится на меньшие модели того же семейства и в другие агентные среды без переобучения.
—Финальный документ занимает не более 2 000 токенов; улучшения достигаются за 1–4 принятых правки за четыре эпохи.
—Метод зависит от надёжной автоматической оценки и оптимизирует один документ, а не библиотеку скиллов — это ограничивает применимость в разнородных доменах.

Глоссарий · 6 терминов▾

Скилл (skill): Текстовый документ с процедурами, правилами использования инструментов и форматами вывода, который языковая модель получает как контекст для выполнения конкретного типа задач.
Замороженная модель: Языковая модель, веса которой не изменяются в процессе оптимизации — она только читает входные данные и генерирует ответы.
Бенчмарк: Стандартизированный набор задач для измерения производительности модели, позволяющий сравнивать разные системы на одних и тех же условиях.
Learning rate (скорость обучения): Параметр, контролирующий размер шага при обновлении модели или, в случае SkillOpt, максимальное число изменений за одну итерацию.
Аблационное исследование: Эксперимент, в котором поочерёдно отключают отдельные компоненты системы, чтобы измерить вклад каждого из них в итоговый результат.
Агентная среда: Программная оболочка, в которой языковая модель выполняет многошаговые задачи с доступом к инструментам — браузеру, коду, файловой системе.

Большинство подходов к улучшению языковых моделей упираются в одно: нужно менять веса. Это дорого, требует данных и закрыто для большинства пользователей. SkillOpt предлагает другой путь — обучать не модель, а документ, который она читает.

Скиллы — текстовые документы с процедурами, правилами использования инструментов, форматами вывода и типичными ошибками — уже стали стандартом в коммерческих продуктах. Anthropic встроила модульную систему скиллов в Claude: в зависимости от задачи модель автоматически загружает нужный набор инструкций. Проблема в том, что такие документы либо пишут вручную, либо генерируют за один проход языковой моделью, либо слабо редактируют самостоятельно. Ни один из этих подходов не является настоящей оптимизацией — нет гарантии, что скилл после правки стал лучше.

Метод сравнения	Подход к созданию скилла
Handwritten skills	Написан вручную экспертом
One-shot LLM skills	Сгенерирован языковой моделью за один проход
Trace2Skill	Специализированный метод извлечения из трасс
TextGrad	Оптимизация текста через градиентоподобные сигналы
GEPA	Специализированный метод оптимизации агентных промптов
EvoSkill	Эволюционный подход к улучшению скиллов
SkillOpt	Итеративное обучение документа с валидацией каждой правки

SkillOpt меняет это. Документ с инструкциями превращается в обучаемое состояние замороженной целевой модели. Вторая, отдельная языковая модель выступает оптимизатором: она читает логи работы агента, выявляет повторяющиеся паттерны ошибок и успехов, затем предлагает точечные правки — добавить, удалить или заменить отдельные фрагменты. Правка принимается только если она улучшает результат на отложенной валидационной выборке.

На GPT-5.5 средний прирост по шести бенчмаркам составил около 23 пунктов; наибольший эффект — на задачах с жёсткими форматными требованиями.

The target model stays frozen while a second model suggests small skill edits that are only accepted after passing validation. | Image: Yang et al. · Источник: The Decoder

Авторы перенесли ключевые концепции глубокого обучения на текстовый уровень. Аналог learning rate ограничивает число принятых правок за один шаг. Планировщик уменьшает «шаг» от эпохи к эпохе. Отклонённые правки попадают в буфер и служат отрицательными примерами для последующей рефлексии оптимизатора. В конце каждой эпохи применяется медленное обновление, сохраняющее стабильные направления правок — аналог сглаживания градиентов в классическом обучении.

Метод тестировали на шести бенчмаркax: поиск, работа с таблицами, анализ документов, математика и навигация в виртуальной среде. В качестве целевых моделей использовались семь систем, включая GPT-5.5 и компактный Qwen3.5-4B. Задачи запускались как в режиме прямого чата, так и в агентных средах Codex и Claude Code. SkillOpt превзошёл или сравнялся с лучшим конкурентом во всех комбинациях — против рукописных скиллов, однопроходных LLM-скиллов и специализированных методов вроде Trace2Skill, TextGrad, GEPA и EvoSkill. На GPT-5.5 в прямом чате средний прирост по всем шести бенчмаркам составил около 23 пунктов.

Один из ключевых результатов — переносимость. Скилл, обученный на крупной модели, улучшает меньшие модели того же семейства. Скилл для работы с таблицами, обученный в среде Codex, без изменений работает в Claude Code и поднимает там результаты до уровня скилла, обученного непосредственно в Claude Code. Математический скилл, оптимизированный на олимпиадных задачах, даёт прирост на смежном бенчмарке без переобучения.

Финальные документы остаются компактными: не более 2 000 токенов, а улучшения достигаются за одну-четыре принятые правки за четыре эпохи обучения. На бенчмарке OfficeQA наибольший прирост дала единственная принятая правка. Выученные правила читаются как заметки опытного практика: для таблиц — сначала проверить структуру листа и записывать вычисленные значения напрямую, а не через формулы Excel; для навигационных задач — вести лог посещённых локаций и не идти к цели, не подобрав нужный объект; для документных вопросов — сначала привязать вопрос к нужной строке таблицы.

Across training rounds, the method typically picks skills that also perform well on unseen test data. | Image: Yang et al. · Источник: The Decoder

Аблационные эксперименты показывают, почему важна каждая составляющая. Без ограничения бюджета правок скилл слишком сильно отклоняется от исходного. Без буфера отклонённых правок оптимизатор повторяет одни и те же ошибки. Удаление медленного обновления в конце эпохи стоит более двадцати пунктов на SpreadsheetBench — это наибольшее падение во всём эксперименте.

Авторы честно обозначают ограничения. Метод зависит от надёжной автоматической оценки: для открытых задач, где успех сложно измерить, потребуются человеческие или модельные суждения. Кроме того, SkillOpt оптимизирует один документ, а не библиотеку скиллов — это может стать узким местом в доменах с высокой вариативностью задач.

В более широком контексте самосовершенствования моделей SkillOpt занимает нишу минимального вмешательства. OpenClaw-RL от исследователей Princeton использует сигналы каждого взаимодействия как живой источник обучения. MetaClaw извлекает поведенческие правила из провальных задач и обновляет веса через reinforcement learning в фоновом режиме. AutoTTS позволяет агенту самому искать алгоритмы управления рассуждением. Hyperagents от Meta оптимизируют сам механизм самосовершенствования. SkillOpt на этом фоне выглядит намеренно скромно: модель заморожена, меняется только читаемый текстовый файл. Для организаций, которые не имеют доступа к весам модели и не могут позволить себе дообучение, это практически значимый результат.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам