Обзорная статья, подготовленная совместно исследователями Университета Иллинойса в Урбана-Шампейн, Meta и Stanford, ставит под сомнение привычное представление об ИИ-агентах. Авторы утверждают: код — не продукт на выходе системы, а субстрат, в котором агент существует. Именно через код модель отслеживает состояние задачи, сохраняет промежуточные результаты, вызывает инструменты и передаёт управление другим агентам.
Центральное понятие статьи — «harness», программная оболочка вокруг языковой модели. В неё входят интерфейсы и инструменты, изолированные среды выполнения (sandbox), механизмы памяти, циклы обратной связи, границы разрешений и каналы верификации. Без этого слоя LLM остаётся stateless: она отвечает на запрос и забывает о нём. С harness модель превращается в агента, способного вести задачу через десятки шагов, накапливать контекст и исправлять собственные ошибки.
| Продукт | Компания | Особенности harness-слоя |
|---|---|---|
| Claude Code | Anthropic | Объединяет терминал, IDE и браузер; агент редактирует файлы в рамках заданных разрешений; поддерживает мультиагентный ревью pull request |
| Codex / Codex-1 | OpenAI | Управляемое облачное окружение; трассируемые pull request-выводы; обучен на длинных многошаговых сессиях кодирования |
| GitHub Copilot Coding Agents | Microsoft / GitHub | Облачные рабочие процессы с трассируемыми изменениями через pull request |
| DeepSeek Code | DeepSeek | В разработке; выделенная команда «Harness» в Пекине для инструментов, планирования и хранения |
| Cursor Composer | Cursor | Непрерывное обучение с подкреплением на реальных трассах использования |
Авторы структурируют поле в три уровня. Первый — взаимодействие модели со средой: подходы вроде Program-of-Thoughts или Chain of Code передают вычисления исполняемым программам вместо словесного описания, а системы типа Code as Policies напрямую транслируют инструкции на естественном языке в управляющий код для роботов. Второй уровень — надёжность на длинных горизонтах: цикл «планирование — выполнение — верификация» заменяет разовую отладку системной проверкой. Выполнение происходит в sandbox с заданными разрешениями; шаг верификации решает, принять результат, доработать или передать человеку. Третий уровень — мультиагентная координация: код, тесты и логи выполнения становятся общим рабочим пространством, где специализированные агенты (менеджер, планировщик, кодер, ревьюер, тестировщик) делят задачу между собой. Системы ChatDev и MetaGPT уже реализуют эту схему в продакшене.
Без harness языковая модель остаётся stateless; с ним она превращается в агента, способного выполнять многошаговые задачи.

Коммерческие продукты подтверждают тезис авторов. Claude Code от Anthropic объединяет терминал, среду разработки и браузер в единый рабочий процесс, где агент редактирует файлы и выполняет команды заданных разрешений. OpenAI Codex и агенты GitHub Copilot переносят аналогичные процессы в управляемые облачные среды с трассируемыми pull request-выводами. Значимость harness-слоя неожиданно подтвердила утечка: когда Anthropic случайно опубликовала около 500 000 строк исходного кода Claude Code, в них обнаружились функция «dreaming» для консолидации задач и другие механизмы управления агентом. Anthropic впоследствии добилась удаления более 8 000 копий и форков с GitHub через запрос об авторских правах.
DeepSeek готовится выйти на тот же рынок с продуктом DeepSeek Code и формирует в Пекине отдельную команду «Harness», которая будет отвечать за всё, что находится за пределами самой модели: использование инструментов, планирование, хранение данных. Формула, которую фиксируют авторы статьи: модель плюс harness равно ИИ-агент.
Harness-слой уже становится источником обучающих данных для следующего поколения моделей. Cursor обучает свой composer с помощью непрерывного обучения с подкреплением на реальных трассах использования. OpenAI тренирует Codex-1, GPT-5-Codex и GPT-5.1-Codex-Max специально на длинных многошаговых сессиях кодирования, соответствующих рабочему процессу Codex. Граница между агентом и средой сама превращается в обучаемый слой.
Отдельное направление — самооптимизация harness. Система AutoHarness автоматически генерирует код, фильтрующий несанкционированные действия. Meta-Harness систематически ищет улучшенные варианты оболочки, используя предыдущие версии, их оценки и логи выполнения как пространство поиска. Гиперагенты Meta идут дальше: они совмещают решение задач и самомодификацию в редактируемой программе, оптимизирующей сам цикл улучшений.

Авторы честно перечисляют нерешённые проблемы. Метрики оценки пока сводятся к сырым показателям успешности, не отражающим качество промежуточных шагов. Тесты для графических интерфейсов могут пропускать некорректные промежуточные состояния. Симуляторы скрывают физические риски. Наконец, harness способен порождать ложную уверенность: видимая обратная связь и зелёная галочка не гарантируют, что код безопасен. Авторы предлагают сопровождать каждое принятое действие документацией — какие тесты выполнялись, какие области остались непроверенными и какие риски сохраняются.
