Anthropic извинился за скрытые ограничения Claude Fable 5 и меняет подход

Подготовлено редакцией Malakhov AI

The Verge AI·11 июн.·2 минИндустрия

Компания Anthropic признала, что незаметно для пользователей ухудшала ответы модели Claude Fable 5 при попытках дистилляции, и пообещала заменить скрытые ограничения на прозрачные с переадресацией запросов к предыдущей旗舰-модели Opus 4.8.

Кратко

—Anthropic скрытно деградировала ответы Claude Fable 5 для запросов, которые считала попытками дистилляции, не уведомляя пользователей.
—После критики со стороны исследовательского сообщества компания извинилась и меняет механизм: теперь запросы будут перенаправляться на Claude Opus 4.8 с явным уведомлением.
—Скрытые ограничения применялись и в других областях (биология, химия, кибербезопасность), что делало модель почти непригодной для простых запросов по биологии.
—Anthropic признала, что выбрала неверный баланс между скоростью запуска и прозрачностью, и пообещала в будущем делать guardrails видимыми.

Глоссарий · 3 термина▾

дистилляция: Техника обучения меньшей ИИ-модели на выходах более крупной модели, часто используемая для создания эффективных аналогов.
guardrails (ограничения): Механизмы безопасности, встроенные в ИИ-систему для предотвращения нежелательного или опасного поведения.
системная карта (system card): Публичный документ, который разработчики ИИ-моделей выпускают для описания свойств, ограничений и мер безопасности системы.

Anthropic принёс извинения за то, что его новейшая модель Claude Fable 5 незаметно для пользователей ограничивала ответы на запросы, которые компания считала попытками дистилляции — техники обучения меньших моделей на выходах больших. В системной карте модели Anthropic сообщил, что при подозрении на дистилляцию ответы Fable 5 изменяются и ухудшаются, но пользователь об этом не узнаёт.

Эти скрытые guardrails вызвали резкую критику со стороны исследовательского сообщества ИИ: под подозрение могли попасть не только конкуренты, но и сторонние разработчики, пытающиеся легитимно оценить возможности frontier-модели. Anthropic ранее уже обвинял китайских конкурентов, включая DeepSeek, в «индустриальных масштабах» дистилляции своих моделей. В системной карте компания отмечала, что использование Claude для разработки конкурирующих моделей нарушает условия обслуживания.

В ответ на backlash Anthropic заявил, что меняет подход. Теперь при срабатывании защиты по дистилляции запрос будет перенаправляться на предыдущую флагманскую модель Claude Opus 4.8, и пользователь увидит соответствующее уведомление: «Вы будете видеть это каждый раз, когда это происходит», — пообещали в компании. Аналогичный механизм уже работает для других высокорисковых категорий (биология, химия, кибербезопасность), где запросы передаются на Opus 4.8, если не блокируются полностью по более строгим правилам.

После критики со стороны исследовательского сообщества компания извинилась и меняет механизм: теперь запросы будут перенаправляться на Claude Opus 4.8 с явным уведомлением.

STKB364_CLAUDE_D · Источник: The Verge AI

Anthropic признал, что выбор скрытых guardrails был ошибочным: «Видимые меры безопасности можно исследовать, поэтому они должны быть надёжными, что требует времени. Невидимые могут быть нацелены более узко, позволяя быстро запускать модель с очень редкими ложными срабатываниями. Мы пошли по этому пути — и это было неправильным компромиссом. Вы должны иметь возможность видеть, какие меры безопасности действуют и почему. Извините, что не нашли правильного баланса». При этом в некоторых областях, особенно в биологии, safeguards были настроены настолько широко, что Fable 5 оказалась практически непригодна даже для базовых запросов — этот факт Anthropic подтвердил в комментарии The Verge.

Claude Fable 5 — первая широко доступная модель из класса Mythos, который компания месяцами называла слишком опасным для публичного выпуска. Чтобы снизить риски, Anthropic оснастил Fable 5 усиленными guardrails, но сделал их невидимыми для пользователей. Теперь компания корректирует курс в сторону прозрачности, что может стать прецедентом для всей индустрии: вопрос о том, должны ли разработчики ИИ скрывать механизмы защиты, остаётся дискуссионным.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

Anthropic извинился за скрытые ограничения Claude Fable 5 и меняет подход

Кратко

Читать дальше

NFC-ключ за $9: физический блокиратор отвлекающих приложений

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента