ИИ не станет полноценным коллегой без завершения задач

Подготовлено редакцией Malakhov AI

The Decoder·6 часов назад·3 минИсследованияИндустрия

Tencent Youtu Lab в новом исследовании выделила пять этапов эволюции языковых моделей — от простых чат-ботов до автономных агентов, способных не просто отвечать, а доводить задачи до конца. Авторы считают, что ключевой сдвиг заключается в переходе от реактивного Q&A к делегированному исполнению.

Кратко

—Исследователи описали пять этапов развития ИИ: от базового чат-бота до автономного цифрового коллеги.
—Основное ограничение современных агентов — отсутствие постоянного рабочего пространства (workspace), что мешает завершать задачи.
—Новый подход OpenClaw сочетает постоянное окружение с переиспользуемыми навыками (skills), которые находятся между рассуждением модели и исполнением.
—Оценка моделей смещается от точности ответов к верификации завершения задачи (task closure) через траектории и конечные состояния.
—Безопасность становится операционной проблемой: расширенная поверхность атаки требует аудита, контроля разрешений и отката.

Глоссарий · 3 термина▾

task closure: Проверка того, что система привела целевую среду в верифицируемое конечное состояние, завершив задачу.
workspace: Постоянное рабочее пространство с файлами, сессиями, журналами, разрешениями и инструментами, сохраняющее состояние на протяжении всего взаимодействия.
skill: Переиспользуемый блок операционных знаний, упакованный в виде файла SKILL.md с инструкциями, скриптами и ресурсами.

Tencent Youtu Lab в новом исследовании представила эволюцию больших языковых моделей в виде пяти этапов — от простых чат-ботов до полностью автономных цифровых коллег. Основная проблема, которую пытаются решить авторы, заключается в том, как модель может надёжно превратить намерение в законченную работу, а не просто выдать правдоподобный ответ.

Первый этап — классические чат-боты, которые генерируют текст в один проход, опираясь на статистические закономерности. Второй этап — «думающие» языковые модели (thinking LLMs), такие как OpenAI o1 и DeepSeek-R1: они тратят дополнительное время на формирование цепочек рассуждений, проверку промежуточных шагов и самокоррекцию. Авторы называют это переходом от быстрой интуитивной «Системы 1» к медленной осознанной «Системе 2» в терминах психолога Дэниела Канемана.

Третий этап — агенты первого поколения, которые могут вызывать API, писать код и просматривать веб-страницы. Однако они остаются хрупкими: авторы выделяют четыре структурных узких места — фрагментированное восприятие среды, отсутствие сохраняющегося состояния, неожиданное поведение и неспособность завершить задачу. Четвёртый этап — OpenClaw, среда с постоянным рабочим пространством: файлы, сессии, логи, браузеры, разрешения и навыки сохраняются на протяжении всего рабочего процесса. Примерами служат OpenHands и SWE-agent, которые встраивают агентов в управляемые среды разработки.

Основное ограничение современных агентов — отсутствие постоянного рабочего пространства (workspace), что мешает завершать задачи.

The paper traces the evolution of large language models through five stages, from basic chatbot to autonomous digital colleague. | Image: Tencent Youtu Lab · Источник: The Decoder

Пятый этап — комбинация рабочего пространства (workspace) и навыков (skills). Авторы утверждают, что именно сочетание этих двух компонентов даёт реальный прирост производительности. Рабочее пространство обеспечивает состояние, хранение и последствия, а навык упаковывает операционные знания в переиспользуемые блоки. В качестве примера приводится Anthropic Agent Skills, где навык представляет собой папку с файлом SKILL.md, инструкциями, скриптами и ресурсами. Навыки не являются ни простым промптом, ни традиционным инструментом — они находятся между рассуждением модели и выполнением действий.

Сдвиг также меняет подходы к обучению и оценке. Чат-боты учились на парах «инструкция-ответ» и оценивались по точности ответа. Агенты в рабочем пространстве обучаются на траекториях «состояние-действие-наблюдение». Успех определяется не правдоподобием, а завершением задачи (task closure): приведение целевой среды в верифицируемое конечное состояние. Бенчмарки вроде SWE-bench, OSWorld и WebArena требуют воспроизводимых начальных состояний, исполняемых инструментов, журналов траекторий и проверок конечного состояния.

Постоянное рабочее пространство расширяет поверхность атаки. Агенты хранят учётные данные, локальные файлы, токены и каналы связи. Проекты вроде PRISM и ClawGuard пытаются внедрить контроль разрешений, отслеживание происхождения и аудиторские логи. Авторы предупреждают, что по мере роста автономности ошибки становятся долгоживущими и их труднее отменить. Среди открытых проблем — откат изменений, управление навыками, гигиена рабочего пространства и траекторное оценивание.

Авторы признают, что комбинация workspace+skill не является полным решением: навыки могут устаревать, рабочее пространство засоряться. Для надёжного развёртывания необходимы управление жизненным циклом навыков, контроль разрешений, песочницы и механизмы отката.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ