Автономный ИИ пишет код в прод без ручного ревью: эксперимент на живой игре

Подготовлено редакцией Malakhov AI

Habr AI·15 июн.·3 минРоссияКод

Алексей Фёдоров, Head of IT финтех-компании с 22-летним опытом в разработке, запустил 60-дневный эксперимент: запросы от незнакомых пользователей через Telegram-бот превращаются в код, который автономный пайплайн без участия человека выкатывает в общий прод браузерной игры.

Кратко

—Код от посторонних людей попадает в боевой билд без ручного ревью — только через автоматические проверки политик.
—Пайплайн состоит из 10 стадий: от модерации заявки до деплоя; задачи выполняются строго по одной.
—Ключевая защита от prompt injection: в контекст модели передаётся только одобренная формулировка, а не сырая переписка с игроком.
—Эксперимент измеряет здоровье кодовой базы (churn, дублирование, покрытие), нагрузку на человека и пропускную способность пайплайна.
—Автор заранее ожидает поломок — и считает это не риском, а содержанием исследования.

Глоссарий · 7 терминов▾

SDLC: Software Development Life Cycle — полный цикл разработки программного обеспечения от постановки задачи до деплоя и поддержки.
Prompt injection: Атака на языковую модель, при которой злоумышленник встраивает в пользовательский ввод инструкции, переопределяющие поведение агента.
TDD: Test-Driven Development — подход, при котором тесты пишутся до кода, а реализация считается готовой, когда все тесты проходят.
Churn: Метрика кодовой базы: доля строк, которые переписываются или удаляются за период — косвенный показатель нестабильности архитектуры.
n-of-1 кейс-стади: Формат исследования с выборкой из одного объекта наблюдения; позволяет описать механизмы явления, но не даёт статистически обобщаемых выводов.
CI: Continuous Integration — автоматический запуск тестов и проверок при каждом изменении кода, до его попадания в основную ветку.
Техдолг: Накопленные в кодовой базе упрощения и компромиссы, которые замедляют дальнейшую разработку и требуют рефакторинга.

Алексей Фёдоров, четыре года возглавляющий IT в финтех-компании, запустил эксперимент, который большинство технических директоров сочли бы описанием производственной аварии: произвольный пользователь пишет запрос в Telegram-бот, автономный пайплайн превращает его в код и выкатывает изменение в боевой билд браузерной игры — и ни один человек этот код глазами не видит.

Площадкой для эксперимента служит top-down тактическая игра в духе Door Kickers: небольшой отряд штурмует здание. Игра открыта для всех по ссылке, любой желающий может через бот попросить добавить оружие, изменить поведение противников, починить баг или нарисовать новую карту. Запрос подхватывает пайплайн из десяти стадий — модерация заявки, уточнение у автора, финальная формулировка задачи, аналитика, написание кода по TDD, ревью, прогон CI и деплой. Задачи выполняются строго по одной, что исключает конфликты слияния и позволяет честно атрибутировать каждое изменение.

Стадия	Описание	Участие человека
Заявка	Игрок создаёт запрос в Telegram-боте	Нет
Модерация заявки	Мейнтейнер пропускает запрос дальше	Да
Уточнение у автора	Пайплайн задаёт уточняющие вопросы	Нет
Сбор ответов	Ответы автора фиксируются	Нет
Модерация ответов	Мейнтейнер проверяет ответы автора	Да
Финальная формулировка	Граница доверия: в контекст идёт только одобренный текст	Нет
Аналитика	Системный и тестовый разбор, проверка на конфликт с направлением игры	Нет
Реализация	Агент пишет код по TDD	Нет
Ревью	Автоматическое ревью агентом	Нет
Тест / Done	Прогон CI, мерж в main, деплой	Нет

Главный архитектурный выбор, на котором держится безопасность схемы, — граница доверия между пользовательским вводом и контекстом модели. В промпт агента попадает только одобренная формулировка задачи, никогда — сырая переписка с игроком. Это стандартная защита от prompt injection: если недоверенный текст передавать модели напрямую как инструкцию, злоумышленник может переопределить поведение агента. Дополнительный фильтр — модерация заявки и ответов автором-мейнтейнером до того, как пайплайн вообще начинает работу. Финальный заслон перед релизом — автоматическая проверка политик, без участия человека.

Фёдоров формулирует проблему, которую пытается исследовать, точно: между «ИИ за час собрал прототип» и «ИИ ведёт разработку продукта с живыми пользователями» — пропасть, о которой мало честных данных. Когда задача сложнее hello-world, начинается дублирование логики, расползающийся техдолг и регрессии, а ревью съедает всё сэкономленное время. Громких заявлений о кратном росте продуктивности много, независимых измерений — мало.

Эксперимент рассчитан на 60 дней и с самого старта фиксирует baseline по нескольким осям. Первая — куда смещается нагрузка на человека: на каких стадиях пайплайна мейнтейнер нужен в начале и на каких через месяц. Вторая — здоровье кодовой базы: churn, дублирование, цикломатическая сложность, покрытие тестами, количество дефектов и инцидентов. Третья — пропускная способность: задач в день, success rate, стоимость одной задачи, на каких стадиях пайплайн чаще спотыкается. Каждое изменение модели или промпта версионируется в журнале решений с обоснованием и временной меткой.

Автор намеренно ограничивает претензии на выводы: это n-of-1 кейс-стади, один пайплайн и один поток задач. Универсальных законов вида «ИИ-разработка деградирует через N задач» из одного прогона не вывести. Обещанный итог — каталог проблемных мест ИИ-native SDLC: где и как этот способ разработки ломается, с привязкой к залогированным метрикам, а не к впечатлениям. Код игры закрыт ради чистоты эксперимента — чтобы поток шёл через естественный язык, а не через готовые диффы. Но у бота есть команда /ask: ИИ-ассистент в режиме только чтения объясняет устройство любого куска логики.

Подобные эксперименты появляются на фоне давления со стороны менеджмента, требующего «внедрить ИИ в разработку всеми возможными способами». Разрыв между демо-прототипом и реальным SDLC-пайплайном — одна из центральных тем в индустрии в последнее время. Большинство публичных кейсов описывают ускорение на отдельных задачах; данных о том, что происходит с архитектурой и техдолгом при длительной автономной генерации кода, почти нет. Именно этот пробел и пытается заполнить эксперимент.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам