Доля фриланс-проектов, выполняемых ИИ на профессиональном уровне, выросла до 16%

Подготовлено редакцией Malakhov AI

The Decoder·5 часов назад·2 минИсследованияИндустрия

Согласно обновлённым данным Remote Labor Index, за восемь месяцев доля фриланс-проектов, которые ИИ-агенты выполняют на профессиональном уровне, выросла с 2,5% до 16,1%.

Кратко

—Fable 5 достиг 16,1% автоматизации в Remote Labor Index, что в 6 раз выше показателя восьмимесячной давности.
—Бенчмарк включает 240 проектов на $144 тыс. в 8 категориях фриланса.
—ИИ-судьи завышали оценку качества до трёх раз, поэтому человеческие эксперты остаются необходимыми.
—Даже лучшие модели проваливают большинство задач: ни один из примеров Fable 5 не соответствует профессиональному стандарту.

Глоссарий · 3 термина▾

Remote Labor Index (RLI): Бенчмарк, измеряющий долю фриланс-проектов, которые ИИ-агенты выполняют на профессиональном уровне, приемлемом для платящего клиента.
automation rate (уровень автоматизации): Доля проектов в бенчмарке, где работа ИИ оценена экспертами не хуже человеческой.
цикл критики (critic loop): Метод, при котором второй ИИ-агент проверяет результат и даёт обратную связь первому для улучшения.

Исследователи из Центра безопасности ИИ (CAIS) совместно с Scale Labs представили обновлённые результаты Remote Labor Index (RLI) — бенчмарка, измеряющего долю фриланс-проектов, которые ИИ-агенты могут выполнить на профессиональном уровне. За восемь месяцев лучший показатель автоматизации вырос с 2,5% до 16,1%, что более чем в шесть раз.

RLI оценивает 240 проектов общей стоимостью $144 тыс., взятых у 358 верифицированных фрилансеров в таких областях, как 3D-моделирование, архитектура, графический дизайн, видео и анимация, аудио, анализ данных и веб-приложения. Каждый результат оценивается экспертами-людьми по сравнению с эталоном, созданным профессиональным исполнителем. Лидером стал агент на базе модели Fable 5, достигший 16,1% — примерно вдвое больше, чем у Opus 4.8 (8,3%) и GPT-5.5 (6,3%). Предыдущий рекорд в 4,17% принадлежал Opus 4.6 на фреймворке Claude Cowork.

Модель / Агент	Уровень автоматизации
Fable 5	16,1%
Opus 4.8	8,3%
GPT-5.5	6,3%
Opus 4.6 (Claude Cowork)	4,17%
Gemini 3 Pro	1,25%

Однако к результату Fable 5 стоит отнестись с осторожностью: из-за ограничений доступа, введённых правительством США, удалось оценить только 218 из 240 проектов. Даже в худшем случае, когда Fable 5 провалил все пропущенные задачи, его показатель остался бы на уровне 14,6%, что всё равно выше конкурентов. Интересно, что прогресс не привязан к датам релиза: относительно новый Gemini 3 Pro показал лишь 1,25%, отстав от гораздо более старых систем.

Бенчмарк включает 240 проектов на $144 тыс. в 8 категориях фриланса.

Fable 5 leads the Remote Labor Index at 16.1 percent, roughly double the runner-up Opus 4.8. | Image: Safe.ai · Источник: The Decoder

Попытка заменить человеческих оценщиков ИИ не удалась. ИИ-судьи существенно завышали оценки — для GPT-5.5 почти в три раза, для Opus 4.8 — в два с половиной. Причина в том, что для справедливой оценки требуется открывать файлы в профессиональных программах и работать с ними, а это как раз то, с чем современные ИИ-агенты справляются хуже всего. Например, в одном из тестов GPT-5.5 создал привлекательный рендер с помощью генератора изображений, но его 3D-модель осталась некачественной — мошенничество можно обнаружить, только открыв модель.

Для тестирования агентов исследователи использовали виртуальную машину Linux с более чем 30 профессиональными приложениями (Blender, GIMP, Audacity) и до 24 часов вычислительного времени на проект. Агенты работали с инструментами вроде Claude Code и Codex CLI, дополненными возможностью управлять графическими программами. Также применялся цикл критики: второй агент проверял результат как требовательный клиент, после чего первый дорабатывал работу.

Несмотря на быстрый прогресс, до профессионального уровня ещё далеко. Ни один из трёх показанных примеров Fable 5 не прошёл бы как готовая работа. Авторы подчёркивают, что рост автоматизации напрямую отражает ускорение автоматизации удалённой работы, но пока ИИ не может заменить человека в большинстве задач.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ