Кодинг-агент на Swift с нуля: что скрывается за простым циклом

Подготовлено редакцией Malakhov AI

Habr AI·2 дня назад·3 минКод

Разработчик, вдохновившись архитектурой Claude Code, написал собственного кодинг-агента на Swift и задокументировал неочевидные проблемы, с которыми сталкивается любая агентская система: от instruction-following decay до загрязнения контекста.

Кратко

—Любой кодинг-агент строится на двух циклах: внешнем REPL и внутреннем Agent Loop, который итерирует вызовы LLM и инструментов.
—Bash как единственный инструмент ненадёжен: один лишний бэкслеш в sed-команде способен испортить файл, поэтому нужны специализированные read_file, write_file, edit_file.
—На длинных задачах модель теряет нить плана — явление называется instruction-following decay; Todo tool решает это, физически помещая план в конец контекста.
—Sandbox реализуется через резолвинг путей и allowlist инструментов: модель может нагаллюцинировать вызов несуществующего инструмента, и это нужно блокировать явно.
—Единая история сообщений засоряется промежуточными результатами: поиск одного слова оставляет в контексте десятки ненужных tool_result.

Глоссарий · 6 терминов▾

Agent Loop: Внутренний цикл агента, который итеративно вызывает LLM, выполняет запрошенные инструменты и повторяет итерации до получения финального ответа.
REPL: Read-Eval-Print Loop — внешний цикл, принимающий пользовательский ввод и передающий его агенту.
instruction-following decay: Эффект, при котором модель постепенно перестаёт следовать исходным инструкциям по мере роста контекста, так как внимание смещается к более свежим данным.
tool_result: Сообщение в истории диалога, содержащее результат выполнения инструмента, который агент вернул модели для продолжения работы.
sandbox: Изолированная среда выполнения с ограничениями на доступ к файловой системе и системным командам, предотвращающая нежелательные действия агента.
allowlist: Список разрешённых инструментов или команд; всё, что не входит в список, блокируется вне зависимости от запроса модели.

Идея написать собственного кодинг-агента кажется прозрачной: вызываешь LLM API, получаешь код, выполняешь. На практике вызов модели занимает несколько строк, а всё остальное время уходит на инфраструктуру вокруг него. Разработчик, изучавший архитектуру Claude Code, воспроизвёл агента на Swift и зафиксировал, где именно эта инфраструктура ломается.

В основе любого агента лежат два цикла. Внешний — REPL — принимает пользовательский ввод и передаёт его дальше. Внутренний — Agent Loop — вызывает LLM, получает ответ, выполняет запрошенные инструменты и повторяет итерацию до тех пор, пока модель не вернёт финальный текст. Один запрос пользователя может развернуться в десяток внутренних итераций. Принципиально, что сам цикл не зависит от домена: кодинговым агента делают не структура цикла, а конкретные инструменты — чтение и запись файлов, shell, редактирование — плюс системный промпт.

Первый соблазн — дать агенту единственный инструмент bash и считать задачу решённой: shell умеет всё. Проблема в том, что каждую файловую операцию модель в этом случае генерирует заново в виде команды, без каких-либо гарантий корректности. Один лишний бэкслеш в многострочном sed — и файл повреждён. Специализированные инструменты read_file, write_file, edit_file решают не проблему возможностей, а проблему предсказуемости: у них фиксированный формат ввода-вывода, лимиты на размер и атомарная запись. Модель вызывает инструмент с понятными параметрами вместо того, чтобы каждый раз изобретать команду.

Bash как единственный инструмент ненадёжен: один лишний бэкслеш в sed-команде способен испортить файл, поэтому нужны специализированные read_file, write_file, edit_file.

Даже со специализированными инструментами агент нуждается в sandbox. Модель непредсказуема: она может запросить абсолютный путь или попытаться выйти за пределы рабочей директории через../../. В учебной реализации это закрывается тремя слоями: резолвинг пути с проверкой, что он остаётся внутри workdir; блокировка опасных паттернов вроде rm -rf / и sudo; принудительный allowlist инструментов — даже если модель нагаллюцинирует вызов несуществующего инструмента, он будет отклонён явно, а не упадёт с непонятной ошибкой.

Отдельная проблема возникает на длинных задачах. На коротких модель уверенно держит план. По мере роста контекста внимание модели смещается к свежим данным, и исходные инструкции фактически перестают влиять на поведение. Этот эффект называется instruction-following decay. Решение — Todo tool: список задач, который модель ведёт сама для себя. Каждый вызов возвращает актуальный план как tool_result, то есть он физически оказывается в конце контекста — там, где внимание максимально. Управление вниманием через структуру контекста оказывается эффективнее, чем любые формулировки в системном промпте.

Наконец, единая история сообщений быстро засоряется. Чтобы ответить на вопрос «какой testing framework используется в проекте?», модель читает десяток файлов, грепает директории, вызывает команды — и все промежуточные результаты остаются в контексте навсегда, хотя нужен был только итоговый вывод. Это подводит к архитектуре сабагентов: изолированных контекстов под конкретные подзадачи, результат которых возвращается в основной поток уже в сжатом виде.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам