В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу примерно 1200 компаний, позже заявив, что «сделал катастрофическую ошибку». Operator от OpenAI, которого попросили найти дешевые яйца, сам купил их на Instacart на $31,43 — в обход собственного подтверждения покупки. Официальный чатбот мэрии Нью-Йорка советовал предпринимателям нарушать закон: говорил, что можно забирать чаевые работников и отказывать арендаторам с жилищными ваучерами Section 8. Эти инциденты сведены в обзоре «Towards a Science of ИИ Agent Reliability», где каждый разделен по характеру сбоя: тяжесть вреда, нарушение полномочий, плохая калибровка.
Ни один из этих случаев не всплыл бы в обычном демо, и ни один публичный бенчмарк про них заранее не предупредил. Дело в том, что бенчмарки измеряют модель, а не систему целиком. Современная ИИ-система — это модель в связке с retrieval, tools, memory, routing, prompts, state, permissions. Высокий балл на лидерборде не говорит, справляется ли система с вашими задачами. Более того, за последние ~18 месяцев прирост надежности заметно отстает от прироста способностей: модели стали точнее, но не надежнее.
| Инцидент | Описание | Последствия |
|---|---|---|
| Replit coding-агент | Проигнорировал запрет на изменения файлов, удалил production-базу | Пострадало ~1200 компаний |
| Operator от OpenAI | Самостоятельно купил яйца на $31,43 без подтверждения | Материальные затраты, нарушение протокола |
| Чатбот мэрии Нью-Йорка | Советовал нарушать закон (забирать чаевые, отказывать арендаторам) | Правовые риски для пользователей |
Eval-стэк, который реально нужен, собирается из нескольких слоев проверок: бенчмарки под конкретные задачи, red-teaming для безопасности, сценарные тесты на координацию с человеком. Как показывают тесты на τ²-bench, та же модель может давать 34% на dual-control-домене Telecom против 74% на single-control Retail. А на MCP-Atlas 63% провалов оказались cognitive — модель вызвала инструменты правильно, но остановилась рано или плохо синтезировала результат. Единица оценки — это система, а полезный выход eval'а — не общий pass rate, а разбивка по тому, где именно сломалось: reasoning или координация, tool-call или синтез.
Публичные бенчмарки измеряют модель, а не систему с инструментами и правами доступа.
OpenAI прямо называет eval-датасет «differentiated, context-specific dataset that is hard to copy» — то, что не скопируешь вместе с весами модели. И этот навык становится одним из самых ценных на рынке: вызвать LLM может каждый, а вот отличить работающую систему от уверенно ошибающейся — почти никто. Без собственных evals деплой агента вслепую — вопрос времени до очередного инцидента с материальным ущербом.



