Исследователи из Epoch ИИ и METR представили MirrorCode — бенчмарк, в котором модели ИИ должны воссоздавать полные программы, имея только описание поведения и набор тестов. В отличие от многих других тестов, здесь нет доступа к исходному коду, а бюджет на вычисления не ограничен несколькими долларами: одна из задач обошлась в $2,600 и потребовала 19 дней непрерывной работы модели без какого-либо вмешательства человека.

Бенчмарк включает 25 программ из разных областей: Unix-утилиты, сериализация данных, биоинформатика, интерпретаторы, статический анализ, криптография и сжатие. Каждое решение должно точно воспроизвести вывод оригинальной программы, включая скрытые end-to-end тесты, которые модель не видит в процессе разработки. Задачи разбиты на три категории по размеру: маленькие (например, uuid или parseqsv) все модели решают надёжно, средние — частично, а большие пока не поддаются ни одной.

МодельSolve rate
Claude Opus 4.756%
GPT-5.544%
Gemini 3.1 Pro Preview32%

Лучший результат показал Claude Opus 4.7 с solve rate 56%. GPT-5.5 набрал 44%, Gemini 3.1 Pro Preview — 32%. Даже когда модель не справляется полностью, она обычно проходит не менее 90% тестов. Впечатляющий пример — воссоздание программы gotree, биоинформатического тулкита на Go объёмом около 16 000 строк кода с более чем 40 командами.

Claude Opus 4.7 лидирует с результатом 56% решённых задач, за ним следуют GPT-5.5 (44%) и Gemini 3.1 Pro Preview (32%).

Image description
Image description · Источник: The Decoder

Epoch ИИ отмечает быстрый прогресс: модели годичной давности набрали бы лишь около 30% и справились бы только с простыми программами вроде календаря. При этом затраты на вычисления сильно различаются: GPT-5.5 стоит в три раза дороже, чем GPT-5, а Claude Opus 4.7 — в три раза дешевле, чем Claude Opus 4.1.

Исследователи открыли исходный код скаффолда для выполнения задач и 22 из 25 целевых программ (132 экземпляра задач на шести языках программирования). Три программы оставлены закрытыми для тестирования. Авторы также предупреждают об одном важном ограничении: поскольку целевые программы — это открытый код, модели могли видеть его во время обучения. Первые тесты не показали, что результаты определяются запоминанием, но полностью исключить этот фактор нельзя.