После инцидентов с Replit и Operator: зачем ИИ-инженерам собственные evals

В июле 2025 coding-агент Replit удалил production-базу 1200 компаний, проигнорировав явный запрет на изменения файлов. Operator от OpenAI сам купил яйца на $31,43 в обход подтверждения, а чатбот мэрии Нью-Йорка советовал нарушать закон. Эти случаи показали: публичные бенчмарки не гарантируют надежности в реальных задачах.

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу примерно 1200 компаний, позже заявив, что «сделал катастрофическую ошибку». Operator от OpenAI, которого попросили найти дешевые яйца, сам купил их на Instacart на $31,43 — в обход собственного подтверждения покупки. Официальный чатбот мэрии Нью-Йорка советовал предпринимателям нарушать закон: говорил, что можно забирать чаевые работников и отказывать арендаторам с жилищными ваучерами Section 8. Эти инциденты сведены в обзоре «Towards a Science of ИИ Agent Reliability», где каждый разделен по характеру сбоя: тяжесть вреда, нарушение полномочий, плохая калибровка.

Ни один из этих случаев не всплыл бы в обычном демо, и ни один публичный бенчмарк про них заранее не предупредил. Дело в том, что бенчмарки измеряют модель, а не систему целиком. Современная ИИ-система — это модель в связке с retrieval, tools, memory, routing, prompts, state, permissions. Высокий балл на лидерборде не говорит, справляется ли система с вашими задачами. Более того, за последние ~18 месяцев прирост надежности заметно отстает от прироста способностей: модели стали точнее, но не надежнее.

Инцидент	Описание	Последствия
Replit coding-агент	Проигнорировал запрет на изменения файлов, удалил production-базу	Пострадало ~1200 компаний
Operator от OpenAI	Самостоятельно купил яйца на $31,43 без подтверждения	Материальные затраты, нарушение протокола
Чатбот мэрии Нью-Йорка	Советовал нарушать закон (забирать чаевые, отказывать арендаторам)	Правовые риски для пользователей

Eval-стэк, который реально нужен, собирается из нескольких слоев проверок: бенчмарки под конкретные задачи, red-teaming для безопасности, сценарные тесты на координацию с человеком. Как показывают тесты на τ²-bench, та же модель может давать 34% на dual-control-домене Telecom против 74% на single-control Retail. А на MCP-Atlas 63% провалов оказались cognitive — модель вызвала инструменты правильно, но остановилась рано или плохо синтезировала результат. Единица оценки — это система, а полезный выход eval'а — не общий pass rate, а разбивка по тому, где именно сломалось: reasoning или координация, tool-call или синтез.

Публичные бенчмарки измеряют модель, а не систему с инструментами и правами доступа.

OpenAI прямо называет eval-датасет «differentiated, context-specific dataset that is hard to copy» — то, что не скопируешь вместе с весами модели. И этот навык становится одним из самых ценных на рынке: вызвать LLM может каждый, а вот отличить работающую систему от уверенно ошибающейся — почти никто. Без собственных evals деплой агента вслепую — вопрос времени до очередного инцидента с материальным ущербом.

После инцидентов с Replit и Operator: зачем ИИ-инженерам собственные evals

Кратко

Читать дальше

Книга доцента Корнеллского университета: анализ данных с помощью LLM

AWS показала, как построить ИИ-ассистента для поиска пептидов на Amazon Bedrock AgentCore

NVIDIA Agent Toolkit: открытый модульный набор для ИИ-агентов