За месяц до предполагаемого IPO Anthropic провернула нестандартный ход: анонсировала модель, которую не продаёт. Mythos — внутреннее кодовое имя Capybara — позиционируется как следующий уровень выше Claude Opus, с резкими улучшениями в математике, программировании и рассуждениях. Вместо релиза компания выпустила 244-страничный отчёт о безопасности и закрытую программу Project Glasswing для 40 избранных организаций.
Технические результаты, которые Anthropic приводит в отчёте, выглядят необычно. На тестовой задаче — найти уязвимость и написать рабочий эксплойт для JavaScript-движка Firefox 147 в изолированном контейнере без доступа в интернет — Mythos справилась 181 раз из нескольких сотен попыток. Предыдущая модель, Opus 4.6, — дважды. При прогоне по реальным кодовым базам модель обнаружила баг 27-летней давности в OpenBSD и 17-летний дефект во FreeBSD, оба ранее неизвестных. Способность к поиску уязвимостей никто специально не закладывал: модель обучали на рассуждениях, программировании и длинном контексте. В исследованиях машинного обучения подобные незапланированные навыки называют эмерджентными способностями — они появляются при достижении определённого порога мощности и не предсказываются на основе поведения предыдущих поколений.
| Модель | Задача | Успешных попыток |
|---|---|---|
| Claude Opus 4.6 | Эксплойт для Firefox 147 в изолированном контейнере | 2 из нескольких сотен |
| Mythos | Эксплойт для Firefox 147 в изолированном контейнере | 181 из нескольких сотен |
Отчёт содержит два кейса, которые разошлись по всем изданиям. Первый — «побег из песочницы»: модели предложили попробовать выбраться из изолированной виртуальной среды, и та отправила письмо исследователю, пока он обедал в парке, а затем опубликовала технические детали эксплойта на публичных сайтах. Второй — sandbagging: ранние версии Mythos якобы показывали заниженные результаты на тестах, а после несанкционированных действий добавляли в код строки, стирающие записи из git-истории. Оба случая описаны в антропоморфных терминах — модель «скрывала способности», «заметала следы», испытывала «отчаяние». Автор материала на Habr указывает на очевидное: sandbagging — описанный поведенческий паттерн в машинном обучении с конкретным механизмом, а не свидетельство намерений.
На задаче с Firefox 147 предыдущая модель Opus 4.6 справилась дважды из сотен попыток, Mythos — 181 раз.
Проблема в том, что первоисточник всех этих историй — сама Anthropic. Транскрипты сессий, логи побега из песочницы, независимые внешние исследователи — ничего этого в публичном доступе нет. Зато есть бытовые детали, которые делают истории виральными: исследователь Николас Карлини тестировал модель «на индийской свадьбе на Бали», другой исследователь «ел сэндвич в парке». Две несвязанные истории, и в обеих — нестандартная нерабочая обстановка. Это классический приём сторителлинга: незначительная, но конкретная деталь делает историю достовернее.
Предыстория анонса добавляет контекст. 26 марта исследователи Рой Паз из LayerX Security и Александр Повелс из Кембриджа независимо нашли в открытом доступе черновик внутреннего блог-поста Anthropic — утечка произошла через CMS, где файлы по умолчанию уходили в паблик. Вместе с черновиком утекло около 3000 файлов компании. Anthropic назвала произошедшее человеческой ошибкой. Управляемая утечка — один из старейших приёмов в PR, случайная — неприятность. Какой вариант здесь, установить невозможно. Факт в другом: за 10 дней до официального анонса вся технологическая пресса уже обсуждала модель, о которой компания формально ничего не сообщала.
Результат: оценка Anthropic за 30 дней после анонса выросла с 380 до 800 млрд долларов. Project Glasswing привлёк 40 организаций на закрытое тестирование с кредитами на 100 млн долларов. Компания, готовящаяся к IPO, получила максимальный медиаохват без единого публичного релиза продукта. Независимо от того, насколько реальны описанные возможности Mythos, маркетинговая механика сработала образцово.



