Anthropic принёс извинения за то, что его новейшая модель Claude Fable 5 незаметно для пользователей ограничивала ответы на запросы, которые компания считала попытками дистилляции — техники обучения меньших моделей на выходах больших. В системной карте модели Anthropic сообщил, что при подозрении на дистилляцию ответы Fable 5 изменяются и ухудшаются, но пользователь об этом не узнаёт.

Эти скрытые guardrails вызвали резкую критику со стороны исследовательского сообщества ИИ: под подозрение могли попасть не только конкуренты, но и сторонние разработчики, пытающиеся легитимно оценить возможности frontier-модели. Anthropic ранее уже обвинял китайских конкурентов, включая DeepSeek, в «индустриальных масштабах» дистилляции своих моделей. В системной карте компания отмечала, что использование Claude для разработки конкурирующих моделей нарушает условия обслуживания.

В ответ на backlash Anthropic заявил, что меняет подход. Теперь при срабатывании защиты по дистилляции запрос будет перенаправляться на предыдущую флагманскую модель Claude Opus 4.8, и пользователь увидит соответствующее уведомление: «Вы будете видеть это каждый раз, когда это происходит», — пообещали в компании. Аналогичный механизм уже работает для других высокорисковых категорий (биология, химия, кибербезопасность), где запросы передаются на Opus 4.8, если не блокируются полностью по более строгим правилам.

После критики со стороны исследовательского сообщества компания извинилась и меняет механизм: теперь запросы будут перенаправляться на Claude Opus 4.8 с явным уведомлением.

STKB364_CLAUDE_D
STKB364_CLAUDE_D · Источник: The Verge AI

Anthropic признал, что выбор скрытых guardrails был ошибочным: «Видимые меры безопасности можно исследовать, поэтому они должны быть надёжными, что требует времени. Невидимые могут быть нацелены более узко, позволяя быстро запускать модель с очень редкими ложными срабатываниями. Мы пошли по этому пути — и это было неправильным компромиссом. Вы должны иметь возможность видеть, какие меры безопасности действуют и почему. Извините, что не нашли правильного баланса». При этом в некоторых областях, особенно в биологии, safeguards были настроены настолько широко, что Fable 5 оказалась практически непригодна даже для базовых запросов — этот факт Anthropic подтвердил в комментарии The Verge.

Claude Fable 5 — первая широко доступная модель из класса Mythos, который компания месяцами называла слишком опасным для публичного выпуска. Чтобы снизить риски, Anthropic оснастил Fable 5 усиленными guardrails, но сделал их невидимыми для пользователей. Теперь компания корректирует курс в сторону прозрачности, что может стать прецедентом для всей индустрии: вопрос о том, должны ли разработчики ИИ скрывать механизмы защиты, остаётся дискуссионным.