Anthropic выпустила Fable 5 — новый класс Mythos с маршрутизатором вместо фильтра

Подготовлено редакцией Malakhov AI

Habr AI·12 июн.·3 минРоссияКод

Через семь дней после публичных предупреждений об опасности ИИ Anthropic выпустила Fable 5 — модель нового класса Mythos, которая набирает 80.3 на SWE-Bench Pro против 69.2 у предыдущего флагмана Opus 4.8. Ключевая техническая особенность: вместо блокировки нежелательных запросов модель тихо переключает пользователя на старый движок.

Кратко

—Fable 5 набирает 80.3 на SWE-Bench Pro и 29.3 на FrontierCode Diamond — вдвое больше Opus 4.8 на сложных кодовых задачах.
—Safety classifier не блокирует запросы, а перенаправляет их на Opus 4.8 — без уведомления пользователя в API или чате.
—Менее 5% сессий триггерят переключение; в остальных 95% пользователь работает с Fable 5.
—Mythos 5 — та же модель без safety classifier — доступна только участникам закрытой программы Project Glasswing.
—Цена Fable 5: $10 за миллион входных токенов и $50 за выходные — ниже, чем у Mythos Preview весной.

Глоссарий · 7 терминов▾

SWE-Bench Pro: Benchmark для оценки агентского кодинга: модель должна самостоятельно решать реальные задачи из GitHub-репозиториев, включая поиск нужного кода и написание патчей.
FrontierCode Diamond: Тест на сложные многошаговые задачи программирования с обходом больших кодовых баз, где модели часто теряют контекст на четвёртом-пятом шаге.
Safety classifier: В данном контексте — роутер, который анализирует входящий запрос и при необходимости перенаправляет его на другую модель, не уведомляя пользователя.
RLHF: Reinforcement Learning from Human Feedback — метод обучения языковых моделей, при котором нежелательное поведение подавляется на этапе тренировки с помощью оценок людей.
Инференс: Процесс генерации ответа языковой моделью — в отличие от обучения, это работа уже готовой модели с конкретным запросом.
Project Glasswing: Закрытая программа Anthropic, дающая отобранным исследовательским организациям доступ к Mythos 5 — версии Fable 5 без safety classifier.
Model distillation: Техника создания меньшей модели путём обучения на выходах более крупной; одна из категорий запросов, которые safety classifier Fable 5 перехватывает.

Anthropic выпустила Fable 5 в пятницу — ровно через семь дней после того, как CEO Дарио Амодей в очередной раз публично призвал индустрию замедлиться из соображений безопасности. Модель открыла новый класс в линейке компании — Mythos, — который встаёт выше Opus. До этого момента у Anthropic была понятная трёхступенчатая иерархия: Haiku для дешёвого инференса, Sonnet для рабочих задач, Opus для тяжёлых. Сверху не было ничего.

Fable 5 на benchmark SWE-Bench Pro, который измеряет агентский кодинг в реальных репозиториях, набирает 80.3 против 69.2 у Opus 4.8. На FrontierCode Diamond — тесте на сложные многошаговые задачи с обходом больших кодовых баз — разрыв ещё заметнее: 29.3 против 13.4. Для сравнения, GPT-5.5 на том же FrontierCode Diamond показывает 5.7. На Humanity's Last Exam без инструментов Fable 5 даёт 59.0 против 49.8 у Opus 4.8 и 41.4 у GPT-5.5. Цена — $10 за миллион входных токенов и $50 за выходные, что ниже, чем у Mythos Preview, выходившего весной.

Benchmark	Fable 5	Opus 4.8	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro (агентский кодинг)	80.3	69.2	~62	~58
FrontierCode Diamond (тяжёлый код)	29.3	13.4	5.7	—
Humanity's Last Exam (без инструментов)	59.0	49.8	41.4	~38
GDPval-AA (бизнес-задачи)	1932	1890	1769	1314

Технически самое интересное в релизе — не сами цифры, а архитектура безопасности. Safety classifier, который Anthropic встроила в Fable 5, работает не как фильтр отказов. Это маршрутизатор. Каждый входящий запрос проходит через небольшой роутер, который проверяет его по трём категориям: кибербезопасность, биология и химия, дистилляция моделей. Если запрос попадает в одну из них — он молча перенаправляется на Opus 4.8. Никакого уведомления в API нет, в интерфейсе чата тоже. Пользователь получает ответ как обычно, не зная, какая модель его сгенерировала. По собственным данным Anthropic, менее 5% сессий триггерят переключение — то есть в 95% случаев пользователь работает именно с Fable 5.

Safety classifier не блокирует запросы, а перенаправляет их на Opus 4.8 — без уведомления пользователя в API или чате.

Это принципиально другой подход по сравнению с тем, что делали большие лаборатории раньше. Классическая схема — RLHF-обучение с «конституцией»: нежелательное поведение вытравливается из весов модели на этапе файн-тюнинга. Anthropic эту схему не отменяла, она по-прежнему встроена в Fable 5. Но поверх неё добавился отдельный слой — не запрет, а подмена движка. С точки зрения пользовательского опыта это мягче, чем отказ. С точки зрения прозрачности — спорнее: разработчик, который сравнивает модели или строит продукт с предсказуемым поведением, не может заранее знать, с чем именно работает в конкретном запросе.

Параллельно существует Mythos 5 — та же модель, те же веса, но без safety classifier. Она не доступна публично: получить её можно только через программу Project Glasswing, которую Anthropic описывает как пул research partners — академических групп, ИИ-safety лабораторий и крупных корпоративных клиентов, изучающих поведение моделей. В числе упоминаемых участников — MILA и METR. Открытого списка нет. Идея программы — дать исследователям полную модель для изучения того, как она ведёт себя без защитного слоя, чтобы понять, какие категории запросов реально опасны. Граница между «research partner» и просто крупным корпоративным клиентом при этом нигде чётко не прописана.

С точки зрения позиционирования новый класс Mythos решает и маркетинговую задачу. Opus становился слишком дорогим и избыточным для большинства рабочих сценариев. Выпустить «Opus 5.0» означало бы просто обновить флагман. Новый класс над Opus — это сигнал о качественном шаге вперёд, а не об итерации. Anthropic — первая из крупных лабораторий, которая официально и в продакшене реализовала схему с маршрутизацией вместо блокировки. OpenAI с линейкой o1/o3/o5/GPT-5 строит иерархию иначе: разные модели для разных задач, без скрытого переключения внутри одного продукта.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Anthropic выпустила Fable 5 — новый класс Mythos с маршрутизатором вместо фильтра

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений