Маленькие открытые модели находят те же уязвимости, что и закрытый Claude Mythos

Подготовлено редакцией Malakhov AI

The Decoder·18 апр.·3 минИсследованияИндустрия

Два независимых исследования показали: модели с 3,6 млрд активных параметров воспроизводят большинство уязвимостей, которые Anthropic демонстрировала как эксклюзивные возможности Claude Mythos. Аргумент об уникальности закрытой модели оказался значительно слабее, чем следовало из позиционирования компании.

Кратко

—AISLE протестировала 8 моделей на уязвимости FreeBSD (CVE-2026-4747) — все нашли баг, включая GPT-OSS-20b за $0,11 за млн токенов.
—Kimi K2 самостоятельно обнаружила, что атака может распространяться между машинами — деталь, которую сама Anthropic не упоминала.
—На уязвимости OpenBSD результаты разошлись: Claude Opus 4.6 воспроизвёл её в 3 из 3 попыток, GPT-5.4 не справился ни разу.
—Исследователи называют это «рваной границей»: лучшая модель для одной задачи кибербезопасности может провалить другую.
—По данным Financial Times, Anthropic держит Mythos закрытым из-за нехватки вычислительных мощностей, а не только из соображений безопасности.

Глоссарий · 6 терминов▾

CVE: Общепринятый идентификатор публично известной уязвимости в программном обеспечении; расшифровывается как Common Vulnerabilities and Exposures.
эксплойт: Программа или последовательность действий, использующая уязвимость в программном обеспечении для получения несанкционированного доступа или выполнения произвольного кода.
целочисленное переполнение: Ошибка в программе, когда результат арифметической операции превышает максимальное значение, которое может хранить переменная, что приводит к непредсказуемому поведению.
open-source: Программное обеспечение с открытым исходным кодом, доступным для изучения, изменения и распространения.
пайплайн: Последовательность автоматизированных шагов обработки данных или выполнения задачи, где результат одного этапа передаётся на следующий.
ложное срабатывание: Ситуация, когда система безопасности или анализа сообщает об угрозе или уязвимости, которой на самом деле не существует.

Claude Mythos — закрытая модель Anthropic, ориентированная на задачи кибербезопасности. Доступ к ней через программу Project Glasswing получили лишь одиннадцать организаций. Anthropic объясняет ограничения тем, что модель способна самостоятельно находить уязвимости в программном обеспечении, строить рабочие эксплойты и захватывать корпоративные сети в симуляциях — при условии, что сеть «небольшая, слабо защищённая и уязвимая». Аудит британского AI Security Institute подтвердил эти характеристики. Именно на этих возможностях строилась репутация Mythos как модели, не имеющей аналогов среди публично доступных систем.

Два независимых исследования поставили этот нарратив под сомнение. Компания AISLE, занимающаяся поиском уязвимостей в open-source-коде с середины 2025 года, взяла фрагменты кода из публичных демонстраций Anthropic и прогнала их через восемь разных моделей. Параллельно Vidoc Security тестировала связку GPT-5.4 и Claude Opus 4.6 с открытым агентом OpenCode. Ни одно из исследований не оспаривает общий уровень Mythos — речь идёт о том, насколько уникальны конкретные продемонстрированные возможности.

Центральный кейс — уязвимость FreeBSD (CVE-2026-4747), которую Anthropic представляла как пример автономного обнаружения и эксплуатации. Все восемь моделей в тесте AISLE нашли этот баг, включая GPT-OSS-20b с 3,6 млрд активных параметров стоимостью $0,11 за миллион токенов. Каждая модель классифицировала уязвимость как критическую и предложила правдоподобный сценарий эксплуатации. Kimi K2 самостоятельно вычислила, что атака может распространяться между машинами — деталь, которую сама Anthropic в своих материалах не упоминала. Единственное, чего не смогла воспроизвести ни одна из тестируемых моделей, — это конкретный приём Mythos по упаковке полезной нагрузки более 1000 байт в 304 доступных байта через 15 отдельных сетевых запросов. Впрочем, альтернативные рабочие пути модели всё же нашли.

Kimi K2 самостоятельно обнаружила, что атака может распространяться между машинами — деталь, которую сама Anthropic не упоминала.

Image description · Источник: The Decoder

Картина меняется на уязвимости OpenBSD, требующей понимания целочисленных переполнений и состояний списков. Здесь результаты разошлись радикально: GPT-OSS-120b восстановил полную цепочку эксплуатации за один прогон, тогда как Qwen3 32B, уверенно справившийся с FreeBSD, объявил код OpenBSD «устойчивым к подобным сценариям». В тестах Vidoc Claude Opus 4.6 воспроизвёл уязвимость в трёх из трёх попыток, GPT-5.4 не справился ни разу. Основатель AISLE Станислав Форт называет это «рваной границей» — неравномерной линией возможностей, где нет единственной лучшей модели для кибербезопасности, а рейтинги резко меняются от задачи к задаче.

Отдельный тест выявил неожиданную слабость: когда в код вносилось исправление уязвимости, только GPT-OSS-120b и частично Qwen3-32B корректно распознавали патч как безопасный. GPT-OSS-20b, Kimi K2 и Deepseek R1 в каждом прогоне продолжали «находить» несуществующие проблемы. Форт интерпретирует это не как опровержение своего тезиса, а как подтверждение: ключевой элемент системы — не сама модель, а слой валидации и приоритизации вокруг неё. Стоимость сканирования одного файла в тестах Vidoc не превысила $30.

Оба исследования сходятся в одном выводе: реальное преимущество лежит не в отдельной модели, а в выстроенном вокруг неё пайплайне — выборе целей, пошаговом анализе, фильтрации ложных срабатываний. AISLE идёт дальше, утверждая, что дешёвые небольшие модели достаточно хороши для большей части работы по обнаружению уязвимостей. «Тысяча достаточно хороших детективов, ищущих везде, найдут больше багов, чем один блестящий детектив, которому приходится угадывать, где искать», — пишет Форт. По данным Financial Times со ссылкой на несколько осведомлённых источников, Anthropic держит Mythos закрытым в том числе из-за нехватки вычислительных мощностей для обслуживания широкой аудитории — что придаёт аргументам об исключительной опасности модели дополнительный контекст.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ