Mythos от Anthropic: что показали независимые тесты кибербезопасности

Подготовлено редакцией Malakhov AI

Habr AI·22 апр.·3 минРоссияКод

Британский AI Security Institute протестировал модель Mythos и выяснил, что она прошла 73% задач экспертного уровня по кибербезопасности — результат, которого раньше не показывала ни одна модель. Независимые оценки расходятся с алармистской риторикой Anthropic, но и не опровергают её полностью.

Кратко

—Mythos решила тест «The Last Ones» из 32 шагов полностью в 3 попытках из 10 — ни одна предыдущая модель не справлялась целиком.
—На прохождение теста модели требовалось до 100 млн токенов, что делает её практическое применение дорогостоящим.
—AISI квалифицирует результат как ожидаемый шаг в многолетнем тренде роста, а не как внезапный скачок.
—Компания Aisle показала, что небольшие открытые модели находят те же уязвимости при наличии подсказок — но Mythos делает это автономно.
—Блогер Дрю Брюниг предположил, что кибербезопасность превращается в «битву кошельков»: защита требует тратить на ИИ-аудит больше, чем хакеры тратят на атаку.

Глоссарий · 5 терминов▾

CTF (Capture The Flag): Соревновательный формат в кибербезопасности, где участники решают задачи на взлом систем или поиск уязвимостей в контролируемой среде.
LLM: Large Language Model — большая языковая модель, нейросеть, обученная на текстах и способная генерировать, анализировать и интерпретировать текст.
токен: Единица текста, которую языковая модель обрабатывает за один шаг; примерно соответствует слогу или короткому слову, 100 млн токенов — это сотни тысяч страниц текста.
атака на цепочку поставок: Тип кибератаки, при котором злоумышленник компрометирует не конечную цель, а стороннее программное обеспечение или библиотеку, которую эта цель использует.
open-source: Программное обеспечение с открытым исходным кодом, доступным для изучения, изменения и распространения.

Пока Anthropic не открыла массовый доступ к Mythos, первые независимые оценки её возможностей появились от трёх источников: британского AI Security Institute (AISI), технoblогера Дрю Брюнига и компании по кибербезопасности Aisle. Картина, которую они рисуют, заметно спокойнее официальных заявлений разработчика — но и не снимает вопросов.

AISI три года тестирует языковые модели на задачах информационной безопасности и фиксирует постепенный рост их способностей. Mythos вписывается в этот тренд, но устанавливает новую планку: модель решила 73% задач из набора экспертного уровня — результат, которого раньше не достигала ни одна система. Ещё год назад модели с такими заданиями не справлялись вообще. На «лёгких» CTF-заданиях разрыв между моделями уже почти исчез — там большинство систем приближается к 100%.

Отдельный тест — «The Last Ones» — симулирует атаку на корпоративную сеть и требует последовательно выполнить 32 шага. Ни одна модель прежде не проходила его полностью. Mythos справилась в 3 попытках из 10. AISI оговаривается, что реальные атаки сложнее: тест не воспроизводит все защитные системы, которые встречаются в боевых условиях.

На прохождение теста модели требовалось до 100 млн токенов, что делает её практическое применение дорогостоящим.

Дрю Брюниг обратил внимание на деталь, которую AISI и Anthropic почти не обсуждают: для прохождения теста модели выделяли до 100 млн токенов, причём заметная часть прогресса происходила уже после 50 млн. Это прямо влияет на доступность инструмента. Mythos — дорогая модель, и возможность гонять её в таких объёмах есть далеко не у каждого. Брюниг формулирует это как «битву кошельков»: чтобы защититься, нужно тратить на ИИ-аудит больше, чем потенциальный атакующий готов потратить на взлом. Он также считает, что это играет на руку крупным open-source проектам, за безопасность которых платят корпорации с серьёзными бюджетами, — самодельным решениям с ними конкурировать сложнее.

Aisle подошла к вопросу иначе и попробовала воспроизвести результаты Mythos с помощью небольших открытых моделей. Формально это удалось — уязвимости из списка Anthropic были найдены. Но принципиальное различие в методологии: Aisle подсказывала моделям, на что смотреть, тогда как Mythos, по утверждению Anthropic, анализирует файлы проекта последовательно и самостоятельно, без наводок. Эксперимент Aisle критикуют за это, однако компания делает и другое наблюдение: задачи кибербезопасности не монолитны. Их можно разбивать на подзадачи и поручать разным моделям — в том числе небольшим и дешёвым, которые в отдельных узких задачах показывают сильные результаты.

Общий вывод из трёх текстов совпадает: шумиха вокруг Mythos преувеличена, но не беспочвенна. Модель не делает кибератаки доступными «для всех» — стоимость использования остаётся барьером. Однако тренд на рост способностей ИИ в этой области устойчив, и следующие модели будут сильнее. AISI рекомендует небольшим компаниям не ждать: они окажутся под ударом первыми, а базовые защитные меры, давно известные в отрасли, по-прежнему внедрены далеко не везде. Брюниг добавляет, что разработка ПО теперь потребует отдельного этапа — ИИ-проверки на уязвимости, — и его глубина будет определяться бюджетом проекта.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

Mythos от Anthropic: что показали независимые тесты кибербезопасности

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США