Claude Opus 4.7, Codex с управлением ПК и взлом водяного знака Google

Подготовлено редакцией Malakhov AI

Habr AI·18 апр.·3 минРоссияКод

Anthropic выпустила Claude Opus 4.7 с результатом 64,3% на SWE-bench Pro — против 53,4% у предыдущей версии. Параллельно OpenAI расширила Codex до компьютерного агента, а исследователь опубликовал инструмент для удаления водяного знака SynthID с точностью 91%.

Кратко

—Claude Opus 4.7 показала 64,3% на SWE-bench Pro и получила новый уровень рассуждений xhigh, но токенизатор стал тратить до 35% больше токенов.
—Codex от OpenAI научился управлять курсором и GUI на macOS, работать с 90+ плагинами и запускать автоматизации по расписанию.
—Google выпустила Gemini 3.1 Flash TTS с поддержкой 70+ языков и 200+ аудио-тегов прямо в тексте промпта.
—Исследователь Алош Денни опубликовал reverse-SynthID — инструмент удаления невидимого водяного знака Google из ИИ-изображений.
—Anthropic анонсировала Claude Design для прототипов интерфейсов: акции Figma упали на 7,5% сразу после анонса.

Глоссарий · 7 терминов▾

SWE-bench Pro: Бенчмарк, оценивающий способность языковой модели решать реальные задачи из GitHub: исправлять баги и писать патчи, проходящие автоматические тесты.
MoE (Mixture of Experts): Архитектура нейросети, при которой на каждый входной токен активируется только часть параметров модели, что снижает вычислительную нагрузку при сохранении общего размера.
SynthID: Технология Google для встраивания невидимого водяного знака в ИИ-сгенерированные изображения и аудио, позволяющая детекторам определять их происхождение.
computer use: Режим работы ИИ-агента, при котором он управляет компьютером через графический интерфейс — видит экран, перемещает курсор и нажимает кнопки.
TTS (Text-to-Speech): Технология синтеза речи: преобразование текста в звуковой файл с голосом.
Task Budgets: Механизм ограничения числа токенов, которые модель может потратить на одну задачу, чтобы предотвратить бесконечные циклы обработки.
Apache 2.0: Свободная лицензия с открытым исходным кодом, разрешающая коммерческое использование, модификацию и распространение без обязательного раскрытия изменений.

Anthropic обновила флагманскую модель: Claude Opus 4.7 набрала 64,3% на бенчмарке SWE-bench Pro — это оценка способности модели решать реальные задачи из GitHub-репозиториев. Предыдущая версия, Opus 4.6, показывала 53,4%. Ранние тестеры отмечают, что модель теперь валидирует ответы перед отправкой, что снижает необходимость постоянного надзора при агентных задачах.

В числе технических изменений — улучшенное зрение: модель обрабатывает изображения с разрешением до 3,75 МП, что позволяет читать плотные таблицы и схемы без потерь. Добавлен уровень рассуждений xhigh — промежуточный между high и max, по умолчанию включённый в Claude Code. Функция Task Budgets в бета-режиме ограничивает расход токенов на одну задачу, предотвращая зацикливание. Цена API осталась прежней — $5 и $25 за миллион токенов на входе и выходе соответственно, однако новый токенизатор может расходовать до 35% больше токенов на том же тексте. Anthropic предупреждает: модель трактует инструкции буквально, поэтому промпты, написанные под Opus 4.6, могут давать неожиданный результат.

OpenAI в свою очередь существенно расширила возможности Codex. Ключевое дополнение — computer use: агент видит экран, перемещает курсор и взаимодействует с приложениями через графический интерфейс, не требуя переключения фокуса у пользователя. Функция пока доступна только на macOS. Одновременно появились встроенный браузер для работы с localhost, генерация изображений через gpt-image-1.5, интеграция с 90+ сервисами — Jira, GitLab, Notion, Slack, Microsoft 365 — и автоматизации по расписанию, когда агент самостоятельно собирает список задач на день.

Codex от OpenAI научился управлять курсором и GUI на macOS, работать с 90+ плагинами и запускать автоматизации по расписанию.

Google выпустила сразу два продукта. Gemini 3.1 Flash TTS поддерживает 70+ языков и 30 готовых голосов. Отличительная черта — audio tags: разработчик вставляет в текст метки вроде [cough] или [whispers], и модель воспроизводит соответствующий звук или интонацию. Доступно более 200 таких тегов, хотя сами теги работают только на английском. Весь аудиовыход автоматически маркируется водяным знаком SynthID. Параллельно вышло нативное приложение Gemini для macOS — бесплатное, работает от macOS 15 Sequoia, вызывается сочетанием Option + Space поверх любого окна.

Тема водяных знаков получила неожиданное продолжение. Исследователь Алош Денни опубликовал reverse-SynthID — открытый инструмент для удаления невидимой метки SynthID из изображений, сгенерированных моделями Google. Метод основан на извлечении шаблона скрытого шума: автор прогнал через модель чёрные и белые фоны, вычленил паттерн и упаковал его в словарь, который затем вычитается из целевого изображения. По заявленным метрикам визуальное качество при этом почти не страдает. Ограничение — шаблон зависит от разрешения, под каждое нужен отдельный профиль. Публикация ставит под сомнение надёжность водяных знаков как инструмента верификации ИИ-контента.

Anthropic также анонсировала Claude Design — инструмент для создания прототипов интерфейсов, лендингов и презентаций на базе Opus 4.7. Механика отличается от стандартных генераторов: пользователь сначала заполняет анкету с параметрами жанра, палитры и настроения, затем получает четыре черновика на выбор и дорабатывает их через инлайн-правки. Инструмент умеет читать дизайн-файлы компании и применять корпоративную дизайн-систему к новым проектам. Экспорт — в Canva, PDF, PPTX или HTML. Рынок отреагировал немедленно: акции Figma упали на 7,5% в день анонса.

Среди других релизов недели — Qwen 3.6 35B-A3B от Alibaba: MoE-модель с 35 млрд параметров, из которых на каждый токен активируются только 3 млрд. Веса открыты под лицензией Apache 2.0, контекст — 262 тысячи токенов, в 4-битном режиме запускается локально на 23 ГБ ОЗУ. Baidu открыла ERNIE Image — генератор изображений на 8B параметров с акцентом на рендеринг текста внутри картинки; запускается на 24 ГБ VRAM.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

Claude Opus 4.7, Codex с управлением ПК и взлом водяного знака Google

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США