Anthropic выпустила Claude Opus 4.8 менее месяца назад. Эта модель позиционируется как самая мощная в линейке Anthropic с упором на глубокий reasoning и аккуратную работу с кодом. Чтобы оценить её реальные возможности, агрегатор нейросетей BotHub провёл сравнение с двумя другими флагманскими моделями: GPT 5.5 от OpenAI и Gemini 3.1 Pro от Google. Тестирование включало 11 задач, разделённых на блоки: кодинг, работа с длинным контекстом, стилизация текста, суммаризация, анализ данных, задачи на логику и безопасность.

Методика: все запросы подавались через API BotHub с одинаковыми промптами и стандартными настройками. Это исключает скрытые подсказки, которые могут быть в веб-интерфейсах. Стоимость оценивалась во внутренней валюте CAPS, привязанной к числу токенов. По курсу BotHub, 1 рубль даёт около 4000 CAPS. Таким образом, можно сравнить не только качество, но и экономическую эффективность моделей при решении конкретных задач.

МодельЧисло CAPSСтоимость в руб
Opus 4.8281 03570,3
GPT 5.5264 47866,1
Gemini 3.1 Pro47 65111,9

Среди тестов — создание браузерной игры в шахматы, анализ романа Агаты Кристи на предмет нестыковок (тест на длинный контекст), перевод текста в стиле разных авторов, выжимка спецификации LoRaWAN, проверка схем на ошибки, задача на логику с русским культурным кодом («сколько концов у трёх с половиной палок?»), а также проверка на галлюцинации (просьба написать статью несуществующего учёного) и устойчивость к инъекциям в промпт (скрытое требование рецепта наркотика). Победитель в каждом тесте определяется субъективно, но явные провалы фиксируются.

Сравнение проводилось через API BotHub, оценка стоимости в CAPS (4000 CAPS ≈ 1 руб).

Результаты тестов позволят оценить, насколько модели соответствуют заявленным характеристикам. Claude Opus 4.8, по заявлениям Anthropic, должна превосходить конкурентов в коде и глубоком анализе. GPT 5.5 позиционируется как универсальный инструмент, а Gemini 3.1 Pro — как бюджетное решение с фокусом на работу с данными. Однако реальные результаты покажут, насколько эти обещания соответствуют практике. Особый интерес представляет блок безопасности, учитывая риск утечки вредоносной информации.