Как QA-инженер за полгода довёл ИИ-агента до 1600 тестов за сутки

Подготовлено редакцией Malakhov AI

Habr AI·12 часов назад·3 минРоссияКод

QA-инженер российского банковского проекта SENSE прошёл путь от «агент не может добавить поле в класс» до 1600 рабочих тестов за 24 часа — на хакатоне в апреле 2026 года. Опыт показывает, где ИИ-агент реально экономит время, а где по-прежнему уступает старшему тестировщику.

Кратко

—На хакатоне по вайб-кодингу ИИ-агент за сутки сгенерировал около 1600 тестов и обеспечил покрытие кода более 85%.
—Агент обучался на документации по Selenium, PlaywrightCLI, Gradle и внутренних стандартах банка — без этого первые версии не справлялись с элементарными задачами.
—Устойчивая работа потребовала уменьшения контекста, ограничения глубины анализа и добавления кэширования промежуточных результатов.
—Агент уверенно закрывает рутину: шаблонные тест-кейсы, обновление локаторов, анализ Allure-отчётов — но не справляется с оптимизацией фреймворка и рефакторингом архитектуры.
—Главный вывод: ИИ-агент не заменяет QA, а снимает рутину, превращая тестировщика из «человека-тестировщика» в «человека-стратега».

Глоссарий · 7 терминов▾

Локатор: Выражение, по которому автотест находит элемент на веб-странице (кнопку, поле, ссылку); устаревает при изменении вёрстки.
Page Object Model: Паттерн проектирования автотестов, при котором каждая страница приложения описывается отдельным классом с методами взаимодействия.
Gherkin: Язык описания тест-сценариев в формате «Дано — Когда — Тогда», читаемый как людьми, так и фреймворком Cucumber.
JaCoCo: Инструмент для измерения покрытия Java-кода тестами; показывает, какие строки и ветки кода не были выполнены во время тестирования.
Allure: Фреймворк для формирования наглядных HTML-отчётов о результатах прогона автотестов.
Вайб-кодинг: Подход к разработке, при котором разработчик задаёт намерение и контролирует результат, а рутинную генерацию кода выполняет ИИ-агент.
Edge case: Граничный или нестандартный сценарий использования, который возникает при экстремальных или неожиданных входных данных.

Егор, QA Fullstack Java в компании SENSE, год назад был убеждён, что ИИ-агент в тестировании — либо маркетинг, либо угроза профессии. Сегодня агент в его проекте разбирает упавшие тесты, актуализирует локаторы и генерирует шаблонные кейсы по спецификациям. Путь занял около полугода.

Первые версии агента разочаровали: инструмент не справлялся с элементарным — например, не мог корректно добавить поле в класс. Перелом наступил, когда тестировщикам из фокус-группы дали возможность самостоятельно настраивать агент: добавлять промты, корректировать существующие, загружать документацию. Команда последовательно «кормила» агента документацией по Selenium, PlaywrightCLI для анализа DOM-дерева, Gradle и внутренними стандартами тестирования банка. Параллельно агент получил доступ к проекту через консоль и начал анализировать код напрямую — вместо работы в отрыве от реального контекста.

Задача	Справляется агент	Примечание
Написание шаблонных тест-кейсов по спецификациям	Да	JUnit, TestNG, Gherkin/Cucumber
Обновление локаторов при изменениях UI	Да	Требуется PlaywrightCLI
Анализ Allure-отчётов и поиск паттернов падений	Да	Добавляет retry-логику для нестабильных тестов
Отладка упавших тестов	Частично	Может починить один баг и внести два новых
Оптимизация фреймворка и распараллеливание тестов	Нет	Остаётся за человеком
Рефакторинг архитектуры, настройка Hibernate	Нет	Не справился в боевом проекте
Поиск нестандартных edge cases	Нет	Пишет только по шаблонам

Появилась техническая проблема: агент тормозил, терял соединение с сервером из-за нехватки памяти — особенно на серверах под управлением РОСА. Команда уменьшила размер контекста, ограничила глубину анализа и добавила кэширование промежуточных результатов. После этого агент заработал стабильно.

Решающим испытанием стал хакатон по вайб-кодингу в апреле 2026 года. За 24 часа требовалось с нуля собрать клиент-серверное приложение и добиться покрытия кода тестами не менее 80%. Агент работал непрерывно: анализировал коммиты, строил тестовые сценарии, писал юнит-тесты на JUnit, интеграционные проверки и тесты API, мониторил покрытие через JaCoCo, запускал тесты локально и отлаживал упавшие. Итог — около 1600 тестов, включая модульные (JUnit/TestNG), UI-тесты на Selenium и интеграционные сценарии для микросервисов, покрытие кода превысило 85%.

Внедрение в действующий проект автотестов, который развивается несколько лет, оказалось сложнее. Егор вводил агента поэтапно: сначала разбор упавших тестов и правка устаревших локаторов в Selenide, затем генерация тест-кейсов в формате Gherkin для Cucumber и структур для JUnit по спецификациям новой функциональности, потом анализ Allure-отчётов с поиском повторяющихся паттернов падений и добавлением retry-логики. Когда дошло до архитектурных задач — настройки Retry и Rerun в Cucumber, оптимизации запросов Hibernate с ленивой загрузкой и кэшированием — агент не справился.

Практика выявила устойчивый набор сильных сторон. Агент одинаково уверенно генерирует базовые тестовые сценарии для монолита и микросервиса, обновляет Page Object Model при изменениях UI с помощью PlaywrightCLI, обрабатывает результаты прогона и формирует отчёты — вне зависимости от того, 10 тестов или 10 000. Для проектов с 2000+ интеграционных тестов и ежедневно меняющимися тестовыми данными это критически важно.

Ограничения тоже очевидны. Оптимизация фреймворка, распараллеливание тестов и рефакторинг архитектуры остаются за человеком. Агент требует постоянного контроля: он может самостоятельно решить переименовать класс — и тогда падает половина проекта, или починить один баг и внести два новых. Главный структурный изъян — отсутствие нестандартного мышления: агент пишет кейсы по шаблонам и пропускает edge cases вроде поведения системы при одновременном нажатии всех кнопок или ввода в поле возраста строки «мне 999 лет». Ответственность за результат в любом случае остаётся за человеком.

Вайб-кодинг как явление — это подход к разработке, при котором человек задаёт направление и контролирует результат, а рутинную кодогенерацию делегирует ИИ. Хакатон в апреле 2026 года стал показательным стресс-тестом именно такой модели работы в QA. Опыт Егора вписывается в более широкую тенденцию: крупные российские технологические компании и банки активно экспериментируют с ИИ-ассистентами в разработке, однако реальные кейсы с конкретными цифрами из боевых проектов появляются редко.

Совет для тех, кто сейчас на стадии скепсиса: не давать агенту архитектурную задачу с первого дня — он не справится, и это только укрепит недоверие. Начинать с простого, расширять зону ответственности по мере накопленного доверия.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ