Обзорная статья, подготовленная совместно исследователями Университета Иллинойса в Урбана-Шампейн, Meta и Stanford, ставит под сомнение привычное представление об ИИ-агентах. Авторы утверждают: код — не продукт на выходе системы, а субстрат, в котором агент существует. Именно через код модель отслеживает состояние задачи, сохраняет промежуточные результаты, вызывает инструменты и передаёт управление другим агентам.

Центральное понятие статьи — «harness», программная оболочка вокруг языковой модели. В неё входят интерфейсы и инструменты, изолированные среды выполнения (sandbox), механизмы памяти, циклы обратной связи, границы разрешений и каналы верификации. Без этого слоя LLM остаётся stateless: она отвечает на запрос и забывает о нём. С harness модель превращается в агента, способного вести задачу через десятки шагов, накапливать контекст и исправлять собственные ошибки.

ПродуктКомпанияОсобенности harness-слоя
Claude CodeAnthropicОбъединяет терминал, IDE и браузер; агент редактирует файлы в рамках заданных разрешений; поддерживает мультиагентный ревью pull request
Codex / Codex-1OpenAIУправляемое облачное окружение; трассируемые pull request-выводы; обучен на длинных многошаговых сессиях кодирования
GitHub Copilot Coding AgentsMicrosoft / GitHubОблачные рабочие процессы с трассируемыми изменениями через pull request
DeepSeek CodeDeepSeekВ разработке; выделенная команда «Harness» в Пекине для инструментов, планирования и хранения
Cursor ComposerCursorНепрерывное обучение с подкреплением на реальных трассах использования

Авторы структурируют поле в три уровня. Первый — взаимодействие модели со средой: подходы вроде Program-of-Thoughts или Chain of Code передают вычисления исполняемым программам вместо словесного описания, а системы типа Code as Policies напрямую транслируют инструкции на естественном языке в управляющий код для роботов. Второй уровень — надёжность на длинных горизонтах: цикл «планирование — выполнение — верификация» заменяет разовую отладку системной проверкой. Выполнение происходит в sandbox с заданными разрешениями; шаг верификации решает, принять результат, доработать или передать человеку. Третий уровень — мультиагентная координация: код, тесты и логи выполнения становятся общим рабочим пространством, где специализированные агенты (менеджер, планировщик, кодер, ревьюер, тестировщик) делят задачу между собой. Системы ChatDev и MetaGPT уже реализуют эту схему в продакшене.

Без harness языковая модель остаётся stateless; с ним она превращается в агента, способного выполнять многошаговые задачи.

The paper's central overview shows how code acts as an executable, testable, and stateful layer between model and environment. | Image: Ning et al.
The paper's central overview shows how code acts as an executable, testable, and stateful layer between model and environment. | Image: Ning et al. · Источник: The Decoder

Коммерческие продукты подтверждают тезис авторов. Claude Code от Anthropic объединяет терминал, среду разработки и браузер в единый рабочий процесс, где агент редактирует файлы и выполняет команды заданных разрешений. OpenAI Codex и агенты GitHub Copilot переносят аналогичные процессы в управляемые облачные среды с трассируемыми pull request-выводами. Значимость harness-слоя неожиданно подтвердила утечка: когда Anthropic случайно опубликовала около 500 000 строк исходного кода Claude Code, в них обнаружились функция «dreaming» для консолидации задач и другие механизмы управления агентом. Anthropic впоследствии добилась удаления более 8 000 копий и форков с GitHub через запрос об авторских правах.

DeepSeek готовится выйти на тот же рынок с продуктом DeepSeek Code и формирует в Пекине отдельную команду «Harness», которая будет отвечать за всё, что находится за пределами самой модели: использование инструментов, планирование, хранение данных. Формула, которую фиксируют авторы статьи: модель плюс harness равно ИИ-агент.

Harness-слой уже становится источником обучающих данных для следующего поколения моделей. Cursor обучает свой composer с помощью непрерывного обучения с подкреплением на реальных трассах использования. OpenAI тренирует Codex-1, GPT-5-Codex и GPT-5.1-Codex-Max специально на длинных многошаговых сессиях кодирования, соответствующих рабочему процессу Codex. Граница между агентом и средой сама превращается в обучаемый слой.

Отдельное направление — самооптимизация harness. Система AutoHarness автоматически генерирует код, фильтрующий несанкционированные действия. Meta-Harness систематически ищет улучшенные варианты оболочки, используя предыдущие версии, их оценки и логи выполнения как пространство поиска. Гиперагенты Meta идут дальше: они совмещают решение задач и самомодификацию в редактируемой программе, оптимизирующей сам цикл улучшений.

Reliability comes from clearly regulated state transitions in a controlled loop around the model. | Image: Ning et al.
Reliability comes from clearly regulated state transitions in a controlled loop around the model. | Image: Ning et al. · Источник: The Decoder

Авторы честно перечисляют нерешённые проблемы. Метрики оценки пока сводятся к сырым показателям успешности, не отражающим качество промежуточных шагов. Тесты для графических интерфейсов могут пропускать некорректные промежуточные состояния. Симуляторы скрывают физические риски. Наконец, harness способен порождать ложную уверенность: видимая обратная связь и зелёная галочка не гарантируют, что код безопасен. Авторы предлагают сопровождать каждое принятое действие документацией — какие тесты выполнялись, какие области остались непроверенными и какие риски сохраняются.