Модель ИИ работала 19 дней без участия человека, чтобы решить одну задачу из бенчмарка

Подготовлено редакцией Malakhov AI

The Decoder·3 часа назад·2 минИсследованияИндустрия

Бенчмарк MirrorCode от Epoch ИИ и METR оценивает способность ИИ воссоздавать программы с нуля без доступа к исходному коду. Claude Opus 4.7 показал лучший результат — 56% решённых задач, а одна из самых сложных задач потребовала непрерывной работы модели в течение 19 дней при затратах $2,600.

Кратко

—MirrorCode — новый бенчмарк, в котором ИИ должен воссоздать программу по её поведению без исходного кода.
—Claude Opus 4.7 лидирует с результатом 56% решённых задач, за ним следуют GPT-5.5 (44%) и Gemini 3.1 Pro Preview (32%).
—Самая дорогая задача обошлась в $2,600 за 19 дней непрерывной работы модели без участия человека.
—Claude Opus 4.7 воссоздал утилиту gotree (16 000 строк Go) за 14 часов при затратах $251 — человеку потребовалось бы от 2 до 17 недель.
—Авторы признают риск запоминания, так как целевые программы являются открытыми, но тесты не подтвердили доминирование этого эффекта.

Видео по теме

Видео по теме · Источник: The Decoder

Глоссарий · 2 термина▾

Скаффолд (scaffold): Программная оболочка, организующая взаимодействие модели ИИ с задачами и средой выполнения.
Solve rate: Доля задач в бенчмарке, которые модель решает полностью и правильно.

Исследователи из Epoch ИИ и METR представили MirrorCode — бенчмарк, в котором модели ИИ должны воссоздавать полные программы, имея только описание поведения и набор тестов. В отличие от многих других тестов, здесь нет доступа к исходному коду, а бюджет на вычисления не ограничен несколькими долларами: одна из задач обошлась в $2,600 и потребовала 19 дней непрерывной работы модели без какого-либо вмешательства человека.

Бенчмарк включает 25 программ из разных областей: Unix-утилиты, сериализация данных, биоинформатика, интерпретаторы, статический анализ, криптография и сжатие. Каждое решение должно точно воспроизвести вывод оригинальной программы, включая скрытые end-to-end тесты, которые модель не видит в процессе разработки. Задачи разбиты на три категории по размеру: маленькие (например, uuid или parseqsv) все модели решают надёжно, средние — частично, а большие пока не поддаются ни одной.

Модель	Solve rate
Claude Opus 4.7	56%
GPT-5.5	44%
Gemini 3.1 Pro Preview	32%

Лучший результат показал Claude Opus 4.7 с solve rate 56%. GPT-5.5 набрал 44%, Gemini 3.1 Pro Preview — 32%. Даже когда модель не справляется полностью, она обычно проходит не менее 90% тестов. Впечатляющий пример — воссоздание программы gotree, биоинформатического тулкита на Go объёмом около 16 000 строк кода с более чем 40 командами.

Claude Opus 4.7 лидирует с результатом 56% решённых задач, за ним следуют GPT-5.5 (44%) и Gemini 3.1 Pro Preview (32%).

Image description · Источник: The Decoder

Epoch ИИ отмечает быстрый прогресс: модели годичной давности набрали бы лишь около 30% и справились бы только с простыми программами вроде календаря. При этом затраты на вычисления сильно различаются: GPT-5.5 стоит в три раза дороже, чем GPT-5, а Claude Opus 4.7 — в три раза дешевле, чем Claude Opus 4.1.

Исследователи открыли исходный код скаффолда для выполнения задач и 22 из 25 целевых программ (132 экземпляра задач на шести языках программирования). Три программы оставлены закрытыми для тестирования. Авторы также предупреждают об одном важном ограничении: поскольку целевые программы — это открытый код, модели могли видеть его во время обучения. Первые тесты не показали, что результаты определяются запоминанием, но полностью исключить этот фактор нельзя.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Google DeepMind встроила компьютерное зрение в Gemini 3.5 Flash

Продолжить по разделам

Модель ИИ работала 19 дней без участия человека, чтобы решить одну задачу из бенчмарка

Кратко

Читать дальше

GPT-5.6 Sol от OpenAI: бенчмарки, цены и доступ под контролем правительства США

Anthropic обвинила Alibaba в крупнейшей атаке с клонированием модели Claude

Google DeepMind встроила компьютерное зрение в Gemini 3.5 Flash