Автооценка вебинаров на Claude Code

Инженер из Otus.ru за неделю построил на основе Claude Code пайплайн для автоматической оценки качества вебинаров, использующий локальную расшифровку через whisper.cpp и структурированный вердикт по рубрике с цитатами. Система прошла калибровку под живых экспертов и показала, что отрицательный результат эксперимента может быть полезнее положительного.

В школе Otus.ru сотни технических вебинаров еженедельно. Качество занятий оценивают методисты вручную, пересматривая записи — процесс не масштабируется, страдает от субъективности и усталости. Очевидное решение — поручить оценку LLM — разваливается при детальном рассмотрении: модель даёт балл без разбивки, без доказательств и без калибровки под живых экспертов. Кроме того, записи содержат персональные данные, что запрещает использование внешних сервисов за пределами РФ.

Инженер компании за неделю построил сквозной пайплайн: видео с платформы → локальная расшифровка через whisper.cpp на Apple M4 → LLM-судья, оценивающий по YAML-рубрике, определяемой методистами → SQLite для хранения → письмо и дашборд. Ключевой элемент — методика оценки: рубрика задаётся как данные (YAML), судья калибруется под конкретных экспертов, а каждый балл требует цитаты с тайм-кодом из занятия.

Правило	Суть
Спецификация и документы раньше кода	Каждый кусок начинался с фиксации задачи, ограничений и критериев приемки текстом.
Работа спринтами с журналом решений	Каждое архитектурное решение записывается с обоснованием и сквозным номером.
Жесткие правила как гардрейлы	Запросы к боевой базе только на чтение, изменение оценочной логики с пересудом, данные не уходят из контура.
Definition of Done с демо-доказательством	Спринт закрыт только когда есть запуск/запрос/экран, показывающий данные.
Ревизия	Неверные решения не переписываются, а дополняются постскриптумом с объяснением ошибки.

Автор использовал Claude Code в паре, но навязал жёсткие правила: спецификация пишется раньше кода, каждое архитектурное решение фиксируется с обоснованием в журнале, часть решений зашита как нерушимые гардрейлы (например, запросы к боевой базе только на чтение с согласованием). Спринт закрывается только при наличии демо-доказательства, а история ошибок сохраняется и не переписывается. Эти правила позволили избежать типичных проблем агентного подхода — галлюцинаций, неимплементированного кода и потери контекста.

Каждый балл подкреплён цитатой с тайм-кодом — без доказательной базы LLM-судья превращается в генератор непроверяемых приговоров.

Самый полезный результат — отрицательный: эксперимент с локальной заменой судьи закрыл за вечер вопрос, который иначе потребовал бы недель выяснения. Кейс демонстрирует, что LLM-агенты способны ускорить разработку, но требуют осознанного управления: без дисциплины они превращаются в генераторы неработающего кода.

Автооценка вебинаров на Claude Code

Кратко

Читать дальше

«skill-compass»: хук для Claude Code, который сам подбирает скиллы под задачу

NAIRR и NVIDIA: 700 научных проектов за два года

Ampersend построила уровень оплаты за интеллект для ИИ-агентов на Amazon Bedrock AgentCore