Бюджет токенов искажает оценку возможностей ИИ-агентов — исследование AISI

Подготовлено редакцией Malakhov AI

The Decoder·3 часа назад·3 минИсследованияИндустрия

Британский Институт безопасности ИИ (AISI) выявил, что стандартные бенчмарки систематически занижают реальные возможности ИИ-агентов. Исследование показало: производительность агента — это кривая, зависящая от выделенного вычислительного бюджета, и при его ограничении измеренный результат отражает лишь минимум.

Кратко

—AISI протестировала frontier-модели с разными бюджетами токенов и обнаружила, что фиксированные ограничения занижают возможности.
—Производительность агентов растёт с увеличением test-time compute, причём новые модели выигрывают больше от дополнительных ресурсов.
—В задачах кибербезопасности около 8% задач решались только при бюджете более 10 млн токенов.
—Временной горизонт моделей удваивается быстрее при высоких бюджетах — каждые 40–50 дней вместо 67–91 при стандартном бюджете.
—AISI предупреждает: измерение способностей как фиксированной величины, а не как функции от бюджета, приведёт к неожиданностям.

Глоссарий · 4 термина▾

test-time compute: Объём вычислительных ресурсов, доступных ИИ-агенту во время решения задачи.
frontier-модель: Передовая модель ИИ, представляющая современный уровень развития технологии.
бюджет токенов: Максимальное количество токенов, которое модель может использовать при решении задачи.
временной горизонт (time horizon): Показатель, отражающий максимальную длительность задачи, которую модель может решить при заданном бюджете.

Британский Институт безопасности ИИ (AISI) провёл исследование, в котором тестировались frontier-модели на семи бенчмарках при различных бюджетах токенов. Основной вывод: фиксированные ограничения бюджета токенов (обычно до 2,5 млн токенов) систематически занижают реальные возможности ИИ-агентов. Производительность агента представляет собой кривую, которая растёт с увеличением test-time compute — объёма вычислений, доступных агенту во время работы. Если бюджет обрезать до того, как кривая достигнет плато, измеренный результат отражает не максимум, а минимум возможностей.

Эффект проявляется во всех доменах. В задачах кибербезопасности около 8% задач были решены только при бюджете свыше 10 млн токенов, а некоторые требовали более 50 млн. На бенчмарках программной инженерии (TerminalBench 2.0, SWE-Bench Pro) успешность возрастала примерно на 25% при увеличении бюджета с 1 до 10 млн токенов. Для математических и академических задач (Humanity's Last Exam) прирост составил около 22% до бюджета 5 млн токенов. Однако не везде дополнительный compute помогает одинаково: на медицинском HealthBench все модели достигали плато в пределах стандартного бюджета. По данным AISI, дополнительные ресурсы наиболее эффективны там, где агент может самостоятельно проверять результаты (например, выполнение кода или проверка эксплойта), и почти бесполезны при отсутствии обратной связи.

Ещё одно открытие — связь между временем, необходимым человеку-эксперту для решения задачи, и потреблением токенов агентом. На 211 задачах по программной инженерии (от METR) и 78 задачах по кибербезопасности (от AISI) эта зависимость подчиняется степенному закону. Задача на одну минуту требует тысяч токенов, на час — миллионов, на неделю — миллиардов. Фиксированный бюджет токенов отсекает самые сложные и длинные задачи. Неудача может означать не недостаток навыков, а слишком жёсткий лимит бюджета. Пример — задача The Last Ones (кибербезопасность), на которую у человека уходит около 20 часов. Ни одна из протестированных моделей не решила её при бюджете менее 30 млн токенов.

Производительность агентов растёт с увеличением test-time compute, причём новые модели выигрывают больше от дополнительных ресурсов.

Image description · Источник: The Decoder

Новые модели гораздо эффективнее используют дополнительный compute. Кривая способностей смещается вверх с каждым поколением, меняясь по трём осям: охват (становятся доступны более сложные задачи), надёжность (та же задача решается чаще) и эффективность (та же задача требует меньше токенов). Временной горизонт современной frontier-модели вырос примерно с 40 минут при бюджете 2,5 млн токенов до 4 часов при 50 млн. Для всех frontier-моделей в среднем горизонт увеличился с 2 до 14 часов при тех же бюджетах.

AISI ранее оценивала, что временной горизонт frontier-моделей на задачах кибербезопасности удваивается примерно каждые 4,7 месяца (при фиксированном бюджете 2,5 млн токенов). При бюджете 50 млн токенов тренд оказался примерно на 60% круче — удвоение происходит каждые 40–50 дней, а не 67–91 день. Таким образом, скорость прогресса сильно зависит от того, какой бюджет используется для оценки. Однако прогресс неравномерен: на 10–30% задач новые модели показали результаты хуже предшественников.

Для AISI главный вывод — о методах измерения. Если мы продолжим рассматривать способности как фиксированную величину, а не как кривую в зависимости от вычислительных ресурсов, мы будем постоянно удивляться тому, что эти системы могут сделать при увеличении бюджета. Снижение стоимости токенов может сделать более высокие бюджеты доступными, что усилит необходимость в измерениях, учитывающих вычислительные ресурсы. AISI теперь прогоняет frontier-модели через серию тестов с разными бюджетами, чтобы получать более точную картину.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

OpenAI предложила США 5% акций — Сэндерс настаивает на налоге в 50%

Продолжить по разделам

Бюджет токенов искажает оценку возможностей ИИ-агентов — исследование AISI

Кратко

Читать дальше

Дообученная открытая модель превзошла GPT и Claude в тестах Bridgewater

Google DeepMind и A24 заключили партнёрство в области ИИ для киноиндустрии

OpenAI предложила США 5% акций — Сэндерс настаивает на налоге в 50%