В школе Otus.ru сотни технических вебинаров еженедельно. Качество занятий оценивают методисты вручную, пересматривая записи — процесс не масштабируется, страдает от субъективности и усталости. Очевидное решение — поручить оценку LLM — разваливается при детальном рассмотрении: модель даёт балл без разбивки, без доказательств и без калибровки под живых экспертов. Кроме того, записи содержат персональные данные, что запрещает использование внешних сервисов за пределами РФ.

Инженер компании за неделю построил сквозной пайплайн: видео с платформы → локальная расшифровка через whisper.cpp на Apple M4 → LLM-судья, оценивающий по YAML-рубрике, определяемой методистами → SQLite для хранения → письмо и дашборд. Ключевой элемент — методика оценки: рубрика задаётся как данные (YAML), судья калибруется под конкретных экспертов, а каждый балл требует цитаты с тайм-кодом из занятия.

ПравилоСуть
Спецификация и документы раньше кодаКаждый кусок начинался с фиксации задачи, ограничений и критериев приемки текстом.
Работа спринтами с журналом решенийКаждое архитектурное решение записывается с обоснованием и сквозным номером.
Жесткие правила как гардрейлыЗапросы к боевой базе только на чтение, изменение оценочной логики с пересудом, данные не уходят из контура.
Definition of Done с демо-доказательствомСпринт закрыт только когда есть запуск/запрос/экран, показывающий данные.
РевизияНеверные решения не переписываются, а дополняются постскриптумом с объяснением ошибки.

Автор использовал Claude Code в паре, но навязал жёсткие правила: спецификация пишется раньше кода, каждое архитектурное решение фиксируется с обоснованием в журнале, часть решений зашита как нерушимые гардрейлы (например, запросы к боевой базе только на чтение с согласованием). Спринт закрывается только при наличии демо-доказательства, а история ошибок сохраняется и не переписывается. Эти правила позволили избежать типичных проблем агентного подхода — галлюцинаций, неимплементированного кода и потери контекста.

Каждый балл подкреплён цитатой с тайм-кодом — без доказательной базы LLM-судья превращается в генератор непроверяемых приговоров.

Самый полезный результат — отрицательный: эксперимент с локальной заменой судьи закрыл за вечер вопрос, который иначе потребовал бы недель выяснения. Кейс демонстрирует, что LLM-агенты способны ускорить разработку, но требуют осознанного управления: без дисциплины они превращаются в генераторы неработающего кода.