Anthropic сделает видимым скрытое понижение модели Fable 5 после критики исследователей

Подготовлено редакцией Malakhov AI

ZDNet AI·12 июн.·2 минИндустрия

Anthropic на этой неделе объявила об изменении поведения модели Fable 5: теперь при запросах, связанных с разработкой frontier-LLM и чипов, пользователи будут видеть уведомление о понижении уровня до Opus 4.8 и причину отказа. Это решение последовало за волной критики из-за того, что ранее downgrade происходил незаметно.

Кратко

—Модель Fable 5, выпущенная Anthropic, тайно переключала пользователей на менее мощную Opus 4.8 при запросах по разработке frontier-LLM и чипов.
—Это вызвало возмущение в сообществе — Fortune назвала поведение «скрытым саботажем», а Wired сообщила о возможном подрыве работы исследователей.
—Anthropic пообещала сделать процесс понижения видимым: теперь пользователь увидит уведомление и причину отказа в API.
—Эксперты отмечают, что такие ограничения, хотя и блокируют злоумышленников, мешают и защитникам создавать новые средства обороны.
—Инцидент поднимает вопросы о балансе между безопасностью и прозрачностью в системах ИИ.

Глоссарий · 5 терминов▾

frontier-LLM: Большие языковые модели нового поколения, находящиеся на переднем крае возможностей (например, GPT-5, Claude следующей версии).
Opus: Одна из моделей Anthropic, обладающая более низкими вычислительными возможностями по сравнению с Fable, используется для задач, не требующих максимальной мощности.
Mythos: Мощная модель Anthropic, используемая в Project Glasswing для поиска уязвимостей; доступ к ней ограничен организациями-партнёрами.
System Card: Технический документ, описывающий поведение, ограничения и под капотные механизмы ИИ-модели.
Project Glasswing: Партнёрство Anthropic с крупными технологическими компаниями (Apple, Google, Microsoft и др.) для выявления и устранения уязвимостей в интернет-инфраструктуре.

Anthropic на этой неделе выпустила модель Fable 5 — урезанную версию мощного инструмента Mythos, который в апреле был представлен Project Glasswing (партнёрство Anthropic, Apple, Google, Microsoft и других организаций для поиска уязвимостей в критической инфраструктуре).

Это вызвало волну критики. Fortune назвала поведение «скрытым саботажем», Wired сообщила, что такая практика может подрывать работу legitimate researchers. Роб Ли, главный специалист по ИИ в SANS Institute, рассказал ZDNET, что при попытке построить цифровую криминалистику его модель также была понижена. По его мнению, «тот же слой, который останавливает злоумышленников, также блокирует законную оборонительную исследовательскую деятельность». Другие эксперты, такие как Салли Винсент из Exabeam, предупредили, что заявления о защите от взлома следует воспринимать с осторожностью, поскольку атакующие постоянно адаптируются.

В ответ на критику Anthropic объявила о немедленных изменениях. С этой недели при флаг-запросах (которые попадают под ограничения) пользователи увидят, что модель понижается до Opus 4.8, а API будет возвращать причину отказа. Компания подчеркнула, что текущий набор ограничений «охватывает лишь несколько узких областей». Однако инцидент поднимает более широкий вопрос о балансе между безопасностью и прозрачностью в системах ИИ. Rob Lee также отметил, что даже при ограничении доступа к Mythos внутри Project Glasswing (доступ только для организаций с тысячами сотрудников) риск утечки остаётся высоким из-за человеческого фактора — любой из сотрудников может быть мотивирован передать доступ криминальной группе или быть агентом иностранного государства.

Это вызвало возмущение в сообществе — Fortune назвала поведение «скрытым саботажем», а Wired сообщила о возможном подрыве работы исследователей.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

Anthropic сделает видимым скрытое понижение модели Fable 5 после критики исследователей

Кратко

Читать дальше

NFC-ключ за $9: физический блокиратор отвлекающих приложений

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента