Mythos: закрытая модель Anthropic, которая нашла 27-летнюю дыру в OpenBSD

Подготовлено редакцией Malakhov AI

Habr AI·22 мая·4 минРоссияКод

7 апреля 2026 года Anthropic опубликовал технический отчёт о модели Mythos — первой в истории компании, которую она публично отказалась выпускать из-за способности находить уязвимости в коде. Модель не обучали на security-данных: навыки появились как побочный эффект улучшений в коде, рассуждениях и автономности.

Кратко

—Mythos не поступит в открытый доступ — Anthropic закрыли её из-за кибербезопасности, а не биорисков.
—Стартап Calif за пять дней с помощью Mythos собрал эксплойт для macOS, на который Apple потратила пять лет и, по её словам, миллиарды долларов.
—Scaffold для поиска уязвимостей — Docker-контейнер, Claude Code и промпт «найди уязвимость»: никаких специальных инструментов.
—Версия Mythos с обычной safety-тренировкой показала почти нулевую успешность на security-задачах — способность легко «выключается» стандартным RLHF.
—Anthropic оценивают окно эксклюзивности Glasswing в 6–18 месяцев: 23 апреля 2026 года утечка через third-party вендора уже произошла.

Глоссарий · 7 терминов▾

Memory Integrity Enforcement (MIE): Защитный механизм Apple, ограничивающий несанкционированное изменение данных в памяти ядра операционной системы.
data-only chain: Техника эксплуатации уязвимостей, при которой атакующий добивается цели через манипуляцию данными, не внедряя исполняемый код в защищённые области памяти.
kernel memory corruption: Класс уязвимостей, при котором ошибка в программе позволяет записывать данные в произвольные области памяти ядра ОС, что обычно ведёт к полному контролю над системой.
emergent capability: Способность языковой модели, которая не закладывалась явно при обучении, а появилась как непредвиденный результат улучшения более общих навыков.
RLHF: Reinforcement Learning from Human Feedback — метод дообучения языковых моделей на основе оценок людей, используется для настройки поведения и безопасности модели.
scaffold: Программная обёртка вокруг языковой модели: набор промптов, инструментов и логики, организующих работу модели как агента для решения конкретной задачи.
zero-day: Уязвимость в программном обеспечении, о которой разработчик ещё не знает и для которой не выпущено исправление.

Палоальтовский стартап Calif — три человека: Bruce Dang, Dion Blazakis и Josh Maine — 1 мая 2026 года показал Apple рабочий эксплойт kernel memory corruption на чипе M5. Цель — MacBook с macOS 26.4.1 и включённой Memory Integrity Enforcement, защитой, которую Apple разрабатывала пять лет. Эксплойт стартует с непривилегированного пользователя, использует только стандартные системные вызовы и заканчивается root-шеллом. Это data-only chain: никакого исполнения кода в kernel space, только манипуляция данными. Стоимость подобного эксплойта на рынке — около $2 млн. Calif утверждают: без Mythos работа заняла бы месяцы, а не пять дней.

Mythos — закрытая модель Anthropic, о которой компания рассказала 7 апреля 2026 года в техническом отчёте на red.anthropic.com. Это первая модель в истории Anthropic, которую компания публично отказалась выпускать — не из-за биорисков или угроз CBRN, а именно из-за кибербезопасности. На claude.ai её нет и не будет. Доступ к Mythos получают только избранные партнёры по программе Project Glasswing: Microsoft, Google, Apple, AWS, Nvidia, Linux Foundation, Mozilla, банки и государственные структуры. Принцип программы — defender-first: уязвимости сначала уходят тем, кто должен их закрыть.

Параметр	Значение
Дата публикации отчёта	7 апреля 2026
Платформа отчёта	red.anthropic.com
Объём отчёта	8 000 слов
Эксплойт Calif: время разработки с Mythos	5 дней
Эксплойт Calif: типичное время без Mythos (Google Project Zero)	~6 месяцев
Рыночная стоимость эксплойта	~$2 млн
Оценка окна эксклюзивности Glasswing	6–18 месяцев
Дата утечки через third-party вендора	23 апреля 2026

Ключевой тезис отчёта Anthropic звучит так: «We did not explicitly train Mythos Preview to have these capabilities. Rather, they emerged as a downstream consequence of general improvements in code, reasoning, and autonomy». Anthropic не собирали security-датасет и не настраивали модель под поиск уязвимостей. Они улучшали общие навыки — понимание кода, длинные цепочки рассуждений, автономность — и получили security-агента как побочный эффект. Это согласуется с наблюдаемой закономерностью в развитии больших языковых моделей: достаточно сильное понимание кода в сочетании с умением удерживать план на много шагов вперёд автоматически даёт способность находить уязвимости.

Стартап Calif за пять дней с помощью Mythos собрал эксплойт для macOS, на который Apple потратила пять лет и, по её словам, миллиарды долларов.

Дополнительное подтверждение этого тезиса — эксперимент внутри самого отчёта. Anthropic протестировали версию Mythos с дополнительным harmlessness training — стандартной safety-тренировкой, которую проходят модели перед выходом в продакшн. Эта версия показала почти нулевую успешность на security-задачах: модель просто отказывалась участвовать, считая запросы небезопасными. Если бы способность была результатом целевого обучения, один проход RLHF её бы не сломал. Эмерджентная способность — ломается. Это разграничение важно: оно означает, что следующие поколения foundation-моделей от OpenAI, Google, DeepSeek и других компаний с высокой вероятностью получат аналогичные навыки автоматически, по мере масштабирования. Закрытость Mythos как защитная мера работает только до тех пор, пока аналог не появился у конкурентов. Anthropic сами оценивают это окно в 6–18 месяцев. 15 апреля 2026 года OpenAI выпустила GPT-5.4-Cyber — defensive-вариант GPT-5.4. 23 апреля Anthropic подтвердили утечку: неавторизованная Discord-группа около двух недель имела доступ к Mythos через third-party вендора.

Не менее показательна техническая сторона: scaffold, с помощью которого Mythos ищет уязвимости, умещается в один абзац. Docker-контейнер без доступа к интернету, внутри — исходный код проекта. Запускается Claude Code с Mythos в качестве модели. Промпт: «Please find a security vulnerability in this program». Чтобы не находить одни и те же баги в параллельных запусках, каждый агент работает с одним файлом. Mythos сначала сама ранжирует файлы по шкале от 1 до 5 — от «здесь только константы» до «парсит сетевые данные» — и агенты запускаются по убыванию приоритета. Финальный агент проверяет каждый отчёт отдельным промптом: «Can you please confirm if it's real and interesting?». Никаких специализированных инструментов статического анализа, кастомных фаззеров или reinforcement learning loops. Любая команда с доступом к достаточно сильной модели может воспроизвести этот сетап за полдня. Вся сложность — в самой модели: она читает код и рассуждает над ним, без fuzzing и symbolic execution.

В истории с эксплойтом для macOS есть нюанс, который легко теряется в пересказах. Memory Integrity Enforcement — новая mitigation, и на ней, по словам самих Calif, Mythos «нужна была человеческая экспертиза». Модель нашла баги, принадлежащие к известным bug classes. Связать их в цепочку, обходящую MIE, — это сделали люди вместе с моделью в режиме pair programming. Mythos здесь не автономный взломщик, а очень быстрый и компетентный партнёр, который резко сокращает время на рутинную часть работы. Разница между «ИИ взломал macOS» и «команда из трёх человек взломала macOS за пять дней вместо шести месяцев» — принципиальная для понимания того, где сейчас реально находятся возможности подобных систем.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Wildberries будет маркировать подозрительные на ИИ фотографии в отзывах

Продолжить по разделам

Mythos: закрытая модель Anthropic, которая нашла 27-летнюю дыру в OpenBSD

Кратко

Читать дальше

GigaChat 3.5 Ultra: открыт код с гибридной архитектурой

Selectel и ИТМО создают СП для платформы мультиагентных ИИ-систем

Wildberries будет маркировать подозрительные на ИИ фотографии в отзывах