Модели класса Mythos — к которым относится Claude Fable 5 — проектировались с расчётом на агентную работу: длинные горизонты планирования, устойчивость к промежуточным неудачам, способность накапливать знания между сессиями. Два паттерна, описанных инженерами Anthropic, показывают, как именно это работает на практике.

Первый паттерн — петли самокоррекции (loops). Идея проста: модель делает шаг, получает обратную связь из среды, корректирует действия и повторяет цикл до выполнения условия. Примитив /goal в Claude Code реализует эту схему напрямую. Для теста использовался Parameter Golf — open-source ML-инженерный челлендж: нужно обучить лучшую модель, которая умещается в 16 МБ, менее чем за 10 минут на кластере 8×H100. Агент редактирует файл train_gpt.py, запускает обучение, считывает лог и решает, какой эксперимент запустить следующим. Fable 5 и Opus 4.7 запускались через Claude Managed Agents (CMA) с доступом к self-hosted песочнице на 8×H100, каждый тест длился до 8 часов.

МодельЗадача Parameter GolfСтратегия экспериментов
Claude Fable 5~в 6 раз лучше Opus 4.7Крупные структурные изменения архитектуры
Opus 4.7Базовый результатСкалярная настройка констант

Результат: Fable 5 улучшил обучающий пайплайн примерно в шесть раз лучше Opus 4.7. Разница в стратегии оказалась показательной. Opus 4.7 после первого удачного эксперимента переходил к скалярной настройке — менял константы, измерял, сохранял положительный результат. Fable 5 делал ставку на крупные структурные изменения архитектуры и демонстрировал устойчивость: например, преодолевал просадку от квантизации на пути к большему выигрышу. Отдельный момент — оценка результатов. Авторы зафиксировали, что модели плохо справляются с самокритикой собственных выводов. Решение — агент-верификатор в независимом контекстном окне. Система Outcomes в CMA реализует это автоматически: оценщик подтверждал выполнение всех девяти критериев рубрики, прежде чем позволить Claude завершить работу.

Fable 5 делал ставку на структурные изменения архитектуры, а не на скалярную настройку — и преодолевал просадки от квантизации.

Второй паттерн — управление памятью между сессиями. Для теста использовался Continual Learning Bench 1.0, опубликованный командой Парта Асавы. Задача: агент отвечает на последовательные вопросы с доступом к SQL-базе данных, каждый вопрос — отдельная агентская сессия. Память реализована через примонтированную файловую систему, общую между сессиями. Авторы описывают пять шагов эффективной работы с памятью: зафиксировать ошибку, разобраться в причине, верифицировать диагноз, дистиллировать его в правило, обращаться к правилу в будущих сессиях вместо повторного вывода.

Sonnet 4.6 останавливается на первом шаге: хранит список ошибок и открытых предположений, к предыдущим заметкам почти не обращается. Opus 4.7 доходит примерно до третьего шага: формирует справочник по схеме с пометками неопределённости, но покрытие верификации остаётся низким — 7–33% вопросов, медиана около 17%. Fable 5 в лучших запусках проходит всю прогрессию: покрытие верификации достигает 73% (22 из 30 вопросов), а выводы дистиллируются в общие правила, применимые к будущим задачам.

Оба паттерна указывают на одну логику проектирования агентных систем с Fable 5: вместо детального промптинга и ручного управления шагами эффективнее строить циклы, в которых модель самостоятельно корректируется по обратной связи из среды и управляет собственным контекстом. Это смещает роль разработчика — от написания инструкций к проектированию петель обратной связи и систем оценки.