Британский Институт безопасности ИИ (AISI) провёл исследование, в котором тестировались frontier-модели на семи бенчмарках при различных бюджетах токенов. Основной вывод: фиксированные ограничения бюджета токенов (обычно до 2,5 млн токенов) систематически занижают реальные возможности ИИ-агентов. Производительность агента представляет собой кривую, которая растёт с увеличением test-time compute — объёма вычислений, доступных агенту во время работы. Если бюджет обрезать до того, как кривая достигнет плато, измеренный результат отражает не максимум, а минимум возможностей.

Эффект проявляется во всех доменах. В задачах кибербезопасности около 8% задач были решены только при бюджете свыше 10 млн токенов, а некоторые требовали более 50 млн. На бенчмарках программной инженерии (TerminalBench 2.0, SWE-Bench Pro) успешность возрастала примерно на 25% при увеличении бюджета с 1 до 10 млн токенов. Для математических и академических задач (Humanity's Last Exam) прирост составил около 22% до бюджета 5 млн токенов. Однако не везде дополнительный compute помогает одинаково: на медицинском HealthBench все модели достигали плато в пределах стандартного бюджета. По данным AISI, дополнительные ресурсы наиболее эффективны там, где агент может самостоятельно проверять результаты (например, выполнение кода или проверка эксплойта), и почти бесполезны при отсутствии обратной связи.

Ещё одно открытие — связь между временем, необходимым человеку-эксперту для решения задачи, и потреблением токенов агентом. На 211 задачах по программной инженерии (от METR) и 78 задачах по кибербезопасности (от AISI) эта зависимость подчиняется степенному закону. Задача на одну минуту требует тысяч токенов, на час — миллионов, на неделю — миллиардов. Фиксированный бюджет токенов отсекает самые сложные и длинные задачи. Неудача может означать не недостаток навыков, а слишком жёсткий лимит бюджета. Пример — задача The Last Ones (кибербезопасность), на которую у человека уходит около 20 часов. Ни одна из протестированных моделей не решила её при бюджете менее 30 млн токенов.

Производительность агентов растёт с увеличением test-time compute, причём новые модели выигрывают больше от дополнительных ресурсов.

Image description
Image description · Источник: The Decoder

Новые модели гораздо эффективнее используют дополнительный compute. Кривая способностей смещается вверх с каждым поколением, меняясь по трём осям: охват (становятся доступны более сложные задачи), надёжность (та же задача решается чаще) и эффективность (та же задача требует меньше токенов). Временной горизонт современной frontier-модели вырос примерно с 40 минут при бюджете 2,5 млн токенов до 4 часов при 50 млн. Для всех frontier-моделей в среднем горизонт увеличился с 2 до 14 часов при тех же бюджетах.

AISI ранее оценивала, что временной горизонт frontier-моделей на задачах кибербезопасности удваивается примерно каждые 4,7 месяца (при фиксированном бюджете 2,5 млн токенов). При бюджете 50 млн токенов тренд оказался примерно на 60% круче — удвоение происходит каждые 40–50 дней, а не 67–91 день. Таким образом, скорость прогресса сильно зависит от того, какой бюджет используется для оценки. Однако прогресс неравномерен: на 10–30% задач новые модели показали результаты хуже предшественников.

Для AISI главный вывод — о методах измерения. Если мы продолжим рассматривать способности как фиксированную величину, а не как кривую в зависимости от вычислительных ресурсов, мы будем постоянно удивляться тому, что эти системы могут сделать при увеличении бюджета. Снижение стоимости токенов может сделать более высокие бюджеты доступными, что усилит необходимость в измерениях, учитывающих вычислительные ресурсы. AISI теперь прогоняет frontier-модели через серию тестов с разными бюджетами, чтобы получать более точную картину.