В школе Otus.ru сотни технических вебинаров еженедельно. Качество занятий оценивают методисты вручную, пересматривая записи — процесс не масштабируется, страдает от субъективности и усталости. Очевидное решение — поручить оценку LLM — разваливается при детальном рассмотрении: модель даёт балл без разбивки, без доказательств и без калибровки под живых экспертов. Кроме того, записи содержат персональные данные, что запрещает использование внешних сервисов за пределами РФ.
Инженер компании за неделю построил сквозной пайплайн: видео с платформы → локальная расшифровка через whisper.cpp на Apple M4 → LLM-судья, оценивающий по YAML-рубрике, определяемой методистами → SQLite для хранения → письмо и дашборд. Ключевой элемент — методика оценки: рубрика задаётся как данные (YAML), судья калибруется под конкретных экспертов, а каждый балл требует цитаты с тайм-кодом из занятия.
| Правило | Суть |
|---|---|
| Спецификация и документы раньше кода | Каждый кусок начинался с фиксации задачи, ограничений и критериев приемки текстом. |
| Работа спринтами с журналом решений | Каждое архитектурное решение записывается с обоснованием и сквозным номером. |
| Жесткие правила как гардрейлы | Запросы к боевой базе только на чтение, изменение оценочной логики с пересудом, данные не уходят из контура. |
| Definition of Done с демо-доказательством | Спринт закрыт только когда есть запуск/запрос/экран, показывающий данные. |
| Ревизия | Неверные решения не переписываются, а дополняются постскриптумом с объяснением ошибки. |
Автор использовал Claude Code в паре, но навязал жёсткие правила: спецификация пишется раньше кода, каждое архитектурное решение фиксируется с обоснованием в журнале, часть решений зашита как нерушимые гардрейлы (например, запросы к боевой базе только на чтение с согласованием). Спринт закрывается только при наличии демо-доказательства, а история ошибок сохраняется и не переписывается. Эти правила позволили избежать типичных проблем агентного подхода — галлюцинаций, неимплементированного кода и потери контекста.
Каждый балл подкреплён цитатой с тайм-кодом — без доказательной базы LLM-судья превращается в генератор непроверяемых приговоров.
Самый полезный результат — отрицательный: эксперимент с локальной заменой судьи закрыл за вечер вопрос, который иначе потребовал бы недель выяснения. Кейс демонстрирует, что LLM-агенты способны ускорить разработку, но требуют осознанного управления: без дисциплины они превращаются в генераторы неработающего кода.

