В начале июня 2026 года Anthropic опубликовала отчёт «When ИИ builds itself»: в мае того же года Claude генерировал больше 80% кода в рабочих системах компании. Годом ранее эта доля составляла единицы процентов. За один квартал объём кода на одного инженера вырос в 8 раз по сравнению с любым периодом 2021–2025 годов. За апрель Claude выкатил более 800 исправлений и снизил один класс ошибок примерно в тысячу раз — это Anthropic оценила как работу четырёх человек за год. На задачах без готового решения успех модели вырос до 76%, прибавив 50 процентных пунктов за полгода.

Цифры выглядят убедительно, пока не появляется внешний замер. Независимая исследовательская группа METR провела строгий эксперимент и получила противоположный результат: ИИ-ассистент замедлял опытных разработчиков примерно на 19% — хотя сами разработчики были уверены, что ускорились. Anthropic оговаривается честно: строки кода — это объём, а не качество; «в 8 раз» почти наверняка завышено; самооценка инженеров («в 4 раза быстрее») — скорее оптимизм. Три цифры — 80%, рост в 8 раз и минус 19% — нужно держать вместе. Поодиночке каждая обманывает.

УровеньЧто этоКто задаёт рамкиГде мы сейчас
1. ИИ помогает в разработкеПишет код, гоняет тесты, разбирает сбоиЧеловекУже есть
2. Совершенствование процессаИИ сам обучается и исследует внутри заданных рамокЧеловек задаёт рамки и условия остановкиЧастично
3. Система переписывает себяСама ставит цели, меняет архитектуру, обучает преемниковСама системаПока нет

Но главная проблема не в метриках производительности. Anthropic с гордостью сообщает, что автоматический проверяющий задним числом поймал бы около трети ошибок из прошлых сбоёв рабочего кода. Перевёрнутая цифра: две трети ошибок он пропустил. И здесь возникает структурная уязвимость: если код пишет Claude и проверяет тоже Claude, у автора и проверяющего общая архитектура и общие обучающие данные. Это означает общие слепые места. Редкое совпадение двух событий, нетипичный граничный случай, специфическая ошибка в порядке вычислений — то, что один экземпляр модели не заметит при написании, второй с высокой вероятностью не заметит при проверке. В промышленной безопасности такие совпадающие отказы называют отказами общей причины, и именно против них направлен стандарт IEC 61508, требующий независимости каналов защиты.

Независимая группа METR зафиксировала обратный эффект: ИИ замедлял опытных разработчиков на 19%, хотя те сами ощущали ускорение.

Существуют два разных способа, которыми проверка промахивается. Первый — тихий пропуск: дешёвая проверка говорит «всё хорошо», тогда как более глубокий анализ нашёл бы реальное нарушение. Это прямой аналог тех двух третей, что проверяющий пропустил. Второй способ опаснее: есть классы ошибок, которые проверка в принципе не умеет описать — они просто выпадают из отчёта, и это легко принять за «чисто». Честная оценка проверки возможна только вместе со списком того, что она не умеет проверять. Иначе она завышает доверие.

Анthropicразличает три уровня самогенерации кода. Первый — ИИ помогает в разработке: пишет код, гоняет тесты, разбирает сбои, рамки задаёт человек. Второй — ИИ сам обучается и исследует внутри заданных условий, человек определяет границы и условия остановки. Третий — система переписывает себя: сама ставит цели, меняет архитектуру, обучает «преемников». Почти все пугающие цифры из отчёта описывают переход от первого уровня ко второму. Граница между вторым и третьим — это и есть текущее окно времени для выстраивания надёжных проверок.

Решение, которое следует из инженерной логики, — не добавить ещё один такой же ИИ-проверяющий, а собрать набор проверок разной природы: статические анализаторы кода, формальные методы верификации и модели других производителей. Цель — чтобы промахи разных проверяющих не совпадали. Та же двухконтурная схема, что применяется в защитной автоматике по стандарту IEC 61508: два независимых канала с разной физической реализацией, чтобы один отказ не выводил оба одновременно. Безопасность здесь — не наличие проверки, а измеренный размер её слепого пятна.

Контекст завершает деталь из отчёта: призыв Anthropic «иметь возможность притормозить» развитие сделан с оговоркой — только если затормозят и другие лаборатории, в США и Китае. Этот призыв прозвучал примерно через неделю после закрытой заявки на биржевое размещение с оценкой около 965 млрд долларов. Даже разговор о рисках упирается в проверку — а у проверки, как видно из собственных цифр компании, есть вполне измеримые границы.