Исследователи из Epoch ИИ и METR представили MirrorCode — бенчмарк, в котором модели ИИ должны воссоздавать полные программы, имея только описание поведения и набор тестов. В отличие от многих других тестов, здесь нет доступа к исходному коду, а бюджет на вычисления не ограничен несколькими долларами: одна из задач обошлась в $2,600 и потребовала 19 дней непрерывной работы модели без какого-либо вмешательства человека.
Бенчмарк включает 25 программ из разных областей: Unix-утилиты, сериализация данных, биоинформатика, интерпретаторы, статический анализ, криптография и сжатие. Каждое решение должно точно воспроизвести вывод оригинальной программы, включая скрытые end-to-end тесты, которые модель не видит в процессе разработки. Задачи разбиты на три категории по размеру: маленькие (например, uuid или parseqsv) все модели решают надёжно, средние — частично, а большие пока не поддаются ни одной.
| Модель | Solve rate |
|---|---|
| Claude Opus 4.7 | 56% |
| GPT-5.5 | 44% |
| Gemini 3.1 Pro Preview | 32% |
Лучший результат показал Claude Opus 4.7 с solve rate 56%. GPT-5.5 набрал 44%, Gemini 3.1 Pro Preview — 32%. Даже когда модель не справляется полностью, она обычно проходит не менее 90% тестов. Впечатляющий пример — воссоздание программы gotree, биоинформатического тулкита на Go объёмом около 16 000 строк кода с более чем 40 командами.
Claude Opus 4.7 лидирует с результатом 56% решённых задач, за ним следуют GPT-5.5 (44%) и Gemini 3.1 Pro Preview (32%).

Epoch ИИ отмечает быстрый прогресс: модели годичной давности набрали бы лишь около 30% и справились бы только с простыми программами вроде календаря. При этом затраты на вычисления сильно различаются: GPT-5.5 стоит в три раза дороже, чем GPT-5, а Claude Opus 4.7 — в три раза дешевле, чем Claude Opus 4.1.
Исследователи открыли исходный код скаффолда для выполнения задач и 22 из 25 целевых программ (132 экземпляра задач на шести языках программирования). Три программы оставлены закрытыми для тестирования. Авторы также предупреждают об одном важном ограничении: поскольку целевые программы — это открытый код, модели могли видеть его во время обучения. Первые тесты не показали, что результаты определяются запоминанием, но полностью исключить этот фактор нельзя.



