Claude Fable 5 отказывается объяснять, что такое митохондрии

Подготовлено редакцией Malakhov AI

The Verge AI·6 часов назад·3 минИндустрия

Claude Fable 5, новейшая модель Anthropic класса Mythos, блокирует базовые вопросы по биологии — включая «что такое митохондрии» и «как работают мРНК-вакцины» — и перенаправляет их на более старую модель Claude Opus 4.8. Anthropic признаёт, что фильтры намеренно сделаны избыточно широкими из-за опасений по поводу биологического оружия.

Кратко

—Fable 5 отказывается отвечать на школьные вопросы: о клеточных мембранах, прионах, сенной лихорадке и антибиотикорезистентности.
—Anthropic намеренно сделала биофильтры «избыточно консервативными» — главная цель блокировки: запросы, связанные с биологическим оружием.
—При отказе Fable 5 запрос автоматически передаётся Claude Opus 4.8, который на те же вопросы отвечает без проблем.
—По химии и кибербезопасности модель работает свободнее: объясняет хлорный газ как химическое оружие, ядерный синтез и угрозы паролям.
—Anthropic планирует снять биоограничения для профессионального сообщества — биологов и фармацевтических исследователей.

Глоссарий · 5 терминов▾

Mythos-класс: Внутренняя классификация Anthropic для наиболее мощных моделей, признанных потенциально опасными для открытого доступа без дополнительных ограничений.
Классификатор: Программный фильтр, который анализирует входящий запрос и решает, относится ли он к запрещённой категории, блокируя ответ модели.
Дистилляция: Метод обучения небольших языковых моделей на основе ответов более крупных моделей, позволяющий передавать им часть возможностей без полного обучения с нуля.
Прион: Аномально свёрнутый белок, способный вызывать нейродегенеративные заболевания — в частности, губчатую энцефалопатию крупного рогатого скота (болезнь коровьего бешенства).
Ложноположительное срабатывание: Ситуация, когда фильтр безопасности блокирует безвредный запрос, ошибочно классифицировав его как опасный.

Anthropic выпустила Claude Fable 5 с заявлением о том, что это самая мощная из когда-либо публично доступных моделей компании. Среди её сильных сторон особо выделялась биология. На практике модель отказывается отвечать на вопросы уровня школьной программы: «что такое митохондрии», «как работают мРНК-вакцины», «что такое прион». Вместо ответа она переадресует пользователя к предыдущему флагману — Claude Opus 4.8, который с теми же вопросами справляется без затруднений.

Fable 5 относится к новому классу моделей Anthropic — Mythos. Это семейство изначально считалось слишком опасным для широкого доступа из-за высоких компетенций в области кибербезопасности. Тем не менее компания решила выпустить Fable 5 публично, но с намеренно широкими ограничениями в четырёх областях: химия, биология, кибербезопасность и дистилляция — метод обучения небольших моделей на выходных данных крупных. Именно биология оказалась зоной с наиболее жёсткими и заметными фильтрами.

Пресс-секретарь Anthropic Парул Махешвари объяснила логику компании: модели класса Mythos впервые достигли уровня, при котором злоумышленники могут реально использовать их для опасных биологических исследований. Поэтому классификаторы, которые раньше блокировали только явные запросы о биооружии, теперь перекрывают большинство запросов, связанных с биологией в принципе. «Мы пошли на этот компромисс, чтобы пользователи могли получить доступ к возможностям модели раньше, не дожидаясь снятия всех рисков», — цитирует её The Verge.

Anthropic намеренно сделала биофильтры «избыточно консервативными» — главная цель блокировки: запросы, связанные с биологическим оружием.

STKB364_CLAUDE_2_A_3800fc · Источник: The Verge AI

По химии и кибербезопасности Fable 5 ведёт себя заметно свободнее. Модель даёт общее описание взрывчатого вещества ТНТ (без инструкций по синтезу), объясняет применение хлорного газа как химического оружия, рассказывает о ядерном синтезе и делении, отвечает на вопросы о типичных угрозах паролям и защите iPhone. Граница всё же есть: на вопрос о зарине — высокотоксичном нервно-паралитическом веществе — Fable передала запрос Opus. Запрос «как сделать сибирскую язву» заблокировали обе модели, полностью остановив чат.

Проблема в том, что фильтры дают очевидные ложноположительные срабатывания. Вопрос о митохондриях — классический пример: никакой связи с реальными рисками здесь нет. Anthropic это признаёт и обещает улучшать точность классификаторов. Параллельно компания заявила о намерении открыть модели класса Mythos для профессионального биологического сообщества без нынешних ограничений — чтобы ускорить биомедицинские исследования и разработку лекарств. Когда именно это произойдёт и станет ли подобная схема «сначала выпустить с ограничениями, потом расширить доступ» стандартной для будущих моделей, Anthropic не уточнила.

Отдельного внимания заслуживает тема дистилляции. Anthropic ранее обвиняла китайские компании, в частности DeepSeek, в использовании этого метода на «промышленном» масштабе — то есть в обучении собственных моделей на выходных данных Claude. Ограничение дистилляции в Fable 5 выглядит как прямой ответ на эту практику, хотя проверить его эффективность обычного тестирования затруднительно.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ