SENAR: как шлюзы качества защищают от ошибок при работе с ИИ-агентами

Habr AI·29 апр.·3 минРоссияКод

Методология SENAR, разработанная за полтора года на тридцати с лишним проектах, вводит обязательные контрольные точки — QG-0 и QG-2 — на входе и выходе каждой задачи, чтобы ИИ-агент не мог начать работу без спецификации и не мог закрыть задачу без сверки с критериями приёмки.

Кратко

—SENAR (Supervised Engineering & Normative AI Regulation) — открытая методология под лицензией CC BY-SA 4.0, доступна на senar.tech.
—Шлюз QG-0 блокирует передачу задачи агенту, пока не оформлена спецификация с целью, критериями приёмки и негативными сценариями.
—Шлюз QG-2 не позволяет закрыть задачу, пока результат не сверён с критериями и не зарегистрированы ручные правки.
—Метрики FPSR, MIR и DER показывают, какая часть рабочего контура проседает, а ERR фиксирует дефекты, ушедшие в продакшн.
—В полном стандарте SENAR пять шлюзов (QG-0..QG-4); в статье разбираются два, замыкающие контур одной задачи.

Глоссарий · 7 терминов▾

QG-0 / QG-2: Quality Gate — контрольные точки (шлюзы) в процессе работы над задачей: QG-0 блокирует старт без спецификации, QG-2 блокирует закрытие без приёмки.
FPSR: First Pass Success Rate — доля задач, которые агент решил корректно с первой попытки, без возврата на доработку.
MIR: Manual Intervention Rate — доля задач, в которых после работы агента потребовалась ручная правка человеком.
DER: Dead End Rate — доля попыток или времени, потраченного на тупиковые ветки решения, из которых агент не вышел самостоятельно.
ERR: Служебная метрика возвратов после закрытия задачи: фиксирует дефекты, которые прошли через все шлюзы и обнаружились уже в продакшне.
TAUSIK: Фреймворк, реализующий методологию SENAR на практике: технически встраивает шлюзы QG в рабочий процесс так, что их нельзя обойти без изменения инструмента.
Спецификация задачи: Формализованное описание задачи, включающее цель в продуктовой логике, критерии приёмки и негативные сценарии — обязательное условие прохождения QG-0.

Однострочный промпт в пятницу вечером обошёлся разработчику девяноста минутами разбора в воскресенье и отдельной задачей на полный ре-индекс. Задача казалась тривиальной: убрать заархивированные закладки из поискового индекса. Агент добросовестно почистил записи с флагом is_deleted — и не тронул два других пути архивации, о которых постановщик знал, но не зафиксировал в задаче.

Эта история стала отправной точкой для описания методологии SENAR. Её авторы — разработчик, ведущий серию статей, и соавтор Вадим Соглаев — собрали её по итогам практики на тридцати с лишним проектах за полтора года. Готового стандарта для работы с ИИ-агентами в разработке на рынке не нашлось, поэтому закономерности, которые повторялись от проекта к проекту, начали оседать в одном месте. SENAR — аббревиатура от Supervised Engineering & Normative AI Regulation — это и есть то самое место, доведённое до состояния воспроизводимого процесса. Методология открытая, лицензия CC BY-SA 4.0, тексты опубликованы на senar.tech.

Метрика	Расшифровка	Что измеряет
FPSR	First Pass Success Rate	Доля задач, решённых с первой попытки без возврата
MIR	Manual Intervention Rate	Доля задач, потребовавших ручной правки после агента
DER	Dead End Rate	Доля тупиковых попыток / времени на тупики
ERR	Exit Return Rate (служебная)	Дефекты, обнаруженные после закрытия задачи в продакшне

Главная идея SENAR строится на наблюдении, которое авторы сформулировали ещё в предыдущих статьях серии: ИИ-агент принципиально отличается от программиста-человека. Он не удерживает контекст между запусками, склонен к локальной оптимизации, добросовестно исполняет буквальную постановку и не задаёт уточняющих вопросов там, где человек задал бы их автоматически. Личная дисциплина постановщика — держать в голове все нюансы задачи — не масштабируется: к тридцать первой задаче за неделю она начинает проседать. Методология предлагает заменить её внешней, технически встроенной в процесс.

Шлюз QG-0 блокирует передачу задачи агенту, пока не оформлена спецификация с целью, критериями приёмки и негативными сценариями.

Барочный архитекторский стол поздно вечером в тёмной мастерской; на столе раскрытый чертёжный лист с абстрактной схемой задачи, по двум противоположным углам которого лежат тяжёлые бронзовые медальоны-печати с гравировкой; единственный исто · Источник: Habr AI

Контур одной задачи в SENAR замыкают два шлюза качества. QG-0 стоит на входе: агент не получает задачу в работу, пока в ней не оформлена спецификация. Минимальный состав спецификации — цель в продуктовой логике (со стороны пользователя, а не реализации), критерии приёмки и негативные сценарии. Формулировка «дать пользователю возможность сменить отображаемое имя» считается корректной целью; «добавить поле в таблицу users» — нет, потому что описывает реализацию, и агент будет оптимизировать именно её. QG-2 стоит на выходе: задача не переходит в статус закрытой, пока результат не сверён с критериями, зафиксированными на входе, и пока не зарегистрированы все ручные правки, внесённые после агента. В полном стандарте SENAR шлюзов пять — QG-0 через QG-4, — но два крайних замыкают контур одной задачи и разбираются в этой части серии.

Авторы проводят чёткую границу между шлюзами и привычными инструментами контроля качества. Тесты ловят функциональные расхождения с ожидаемым поведением, линтеры — отклонения от стиля кода, статический анализ — подозрительные конструкции, ревью — всё, что не поймали предыдущие инструменты. Ворота задачи проверяют другое: постановку до того, как код появился, и приёмку после того, как он произведён. Аналогия из производства: тесты и линтеры — это контроль готовых деталей на конвейере, ворота — допуск чертежа на конвейер и приёмка партии после него. Агент опаснее конвейера именно тем, что умеет что-то сделать даже из плохого чертежа.

Техническую реализацию шлюзов берёт на себя фреймворк TAUSIK, который реализует SENAR на практике. До прохождения QG-0 агенту физически не отдают задачу; после прохождения QG-2 задача автоматически переходит в статус закрытой и уходит в журнал. Пропустить шаг можно, только переписав сам инструмент — это и есть защита от пятничной усталости, ради которой ворота появились.

Метрическая часть SENAR включает три основных показателя. FPSR — доля задач, решённых с первой попытки без возврата. MIR — доля задач, в которых после агента потребовалась ручная правка. DER (Dead End Rate) — доля тупиковых попыток или времени, потраченного на тупики. Дополнительно авторы ведут служебную метрику ERR — возвраты после закрытия задачи, то есть дефекты, ушедшие в продакшн. Метрики работают как сигналы: если FPSR падает, значит спецификации на входе недостаточно структурированы; если MIR растёт — агент систематически не справляется с каким-то классом задач без вмешательства человека.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме