Завтра на платформе Amazon Bedrock станут доступны модели Anthropic Claude Fable 5 с новыми защитными механизмами. Эти модели относятся к классу frontier, обладают расширенными возможностями, особенно в области кибербезопасности, но их широкое распространение требует дополнительных мер предосторожности. AWS и Anthropic, работая проекта Project Glasswing, разработали guardrails, которые должны предотвратить использование моделей злоумышленниками для глубокого исследования уязвимостей.

При срабатывании ограничений модель автоматически переключается на Opus 4.8 — также высокопроизводительную модель, уже доступную публично. Такой подход позволяет предоставить пользователям мощные инструменты, не давая существенных преимуществ атакующим. AWS подчёркивает, что цель — дать защитникам (компаниям, правительствам, академическим институтам) возможность укрепить свои системы раньше, чем злоумышленники получат доступ к новым возможностям.

Anthropic, в свою очередь, опубликовал блог "Redeploying Fable 5", где описывает принципы оценки серьёзности инцидентов и SLA по реагированию на уязвимости. Это первая структура для моделей, обладающих киберспособностями. AWS ИИ Red Team совместно с Anthropic дополнительно протестировала защиту. Компании намерены продолжать итерации и совершенствовать guardrails по мере появления новых моделей и накопления опыта.

При срабатывании guardrails модель автоматически понижается до Opus 4.8.