Anthropic обновила флагманскую модель: Claude Opus 4.7 набрала 64,3% на бенчмарке SWE-bench Pro — это оценка способности модели решать реальные задачи из GitHub-репозиториев. Предыдущая версия, Opus 4.6, показывала 53,4%. Ранние тестеры отмечают, что модель теперь валидирует ответы перед отправкой, что снижает необходимость постоянного надзора при агентных задачах.
В числе технических изменений — улучшенное зрение: модель обрабатывает изображения с разрешением до 3,75 МП, что позволяет читать плотные таблицы и схемы без потерь. Добавлен уровень рассуждений xhigh — промежуточный между high и max, по умолчанию включённый в Claude Code. Функция Task Budgets в бета-режиме ограничивает расход токенов на одну задачу, предотвращая зацикливание. Цена API осталась прежней — $5 и $25 за миллион токенов на входе и выходе соответственно, однако новый токенизатор может расходовать до 35% больше токенов на том же тексте. Anthropic предупреждает: модель трактует инструкции буквально, поэтому промпты, написанные под Opus 4.6, могут давать неожиданный результат.
OpenAI в свою очередь существенно расширила возможности Codex. Ключевое дополнение — computer use: агент видит экран, перемещает курсор и взаимодействует с приложениями через графический интерфейс, не требуя переключения фокуса у пользователя. Функция пока доступна только на macOS. Одновременно появились встроенный браузер для работы с localhost, генерация изображений через gpt-image-1.5, интеграция с 90+ сервисами — Jira, GitLab, Notion, Slack, Microsoft 365 — и автоматизации по расписанию, когда агент самостоятельно собирает список задач на день.
Codex от OpenAI научился управлять курсором и GUI на macOS, работать с 90+ плагинами и запускать автоматизации по расписанию.

Google выпустила сразу два продукта. Gemini 3.1 Flash TTS поддерживает 70+ языков и 30 готовых голосов. Отличительная черта — audio tags: разработчик вставляет в текст метки вроде [cough] или [whispers], и модель воспроизводит соответствующий звук или интонацию. Доступно более 200 таких тегов, хотя сами теги работают только на английском. Весь аудиовыход автоматически маркируется водяным знаком SynthID. Параллельно вышло нативное приложение Gemini для macOS — бесплатное, работает от macOS 15 Sequoia, вызывается сочетанием Option + Space поверх любого окна.
Тема водяных знаков получила неожиданное продолжение. Исследователь Алош Денни опубликовал reverse-SynthID — открытый инструмент для удаления невидимой метки SynthID из изображений, сгенерированных моделями Google. Метод основан на извлечении шаблона скрытого шума: автор прогнал через модель чёрные и белые фоны, вычленил паттерн и упаковал его в словарь, который затем вычитается из целевого изображения. По заявленным метрикам визуальное качество при этом почти не страдает. Ограничение — шаблон зависит от разрешения, под каждое нужен отдельный профиль. Публикация ставит под сомнение надёжность водяных знаков как инструмента верификации ИИ-контента.
Anthropic также анонсировала Claude Design — инструмент для создания прототипов интерфейсов, лендингов и презентаций на базе Opus 4.7. Механика отличается от стандартных генераторов: пользователь сначала заполняет анкету с параметрами жанра, палитры и настроения, затем получает четыре черновика на выбор и дорабатывает их через инлайн-правки. Инструмент умеет читать дизайн-файлы компании и применять корпоративную дизайн-систему к новым проектам. Экспорт — в Canva, PDF, PPTX или HTML. Рынок отреагировал немедленно: акции Figma упали на 7,5% в день анонса.
Среди других релизов недели — Qwen 3.6 35B-A3B от Alibaba: MoE-модель с 35 млрд параметров, из которых на каждый токен активируются только 3 млрд. Веса открыты под лицензией Apache 2.0, контекст — 262 тысячи токенов, в 4-битном режиме запускается локально на 23 ГБ ОЗУ. Baidu открыла ERNIE Image — генератор изображений на 8B параметров с акцентом на рендеринг текста внутри картинки; запускается на 24 ГБ VRAM.


