Сравнение Claude Opus 4.8, GPT 5.5 и Gemini 3.1 Pro: 11 практических тестов

Anthropic выпустила Claude Opus 4.8 менее месяца назад. На агрегаторе BotHub сравнили её с GPT 5.5 от OpenAI и Gemini 3.1 Pro от Google в 11 практических задачах — от кода до проверки на галлюцинации.

Anthropic выпустила Claude Opus 4.8 менее месяца назад. Эта модель позиционируется как самая мощная в линейке Anthropic с упором на глубокий reasoning и аккуратную работу с кодом. Чтобы оценить её реальные возможности, агрегатор нейросетей BotHub провёл сравнение с двумя другими флагманскими моделями: GPT 5.5 от OpenAI и Gemini 3.1 Pro от Google. Тестирование включало 11 задач, разделённых на блоки: кодинг, работа с длинным контекстом, стилизация текста, суммаризация, анализ данных, задачи на логику и безопасность.

Методика: все запросы подавались через API BotHub с одинаковыми промптами и стандартными настройками. Это исключает скрытые подсказки, которые могут быть в веб-интерфейсах. Стоимость оценивалась во внутренней валюте CAPS, привязанной к числу токенов. По курсу BotHub, 1 рубль даёт около 4000 CAPS. Таким образом, можно сравнить не только качество, но и экономическую эффективность моделей при решении конкретных задач.

Модель	Число CAPS	Стоимость в руб
Opus 4.8	281 035	70,3
GPT 5.5	264 478	66,1
Gemini 3.1 Pro	47 651	11,9

Среди тестов — создание браузерной игры в шахматы, анализ романа Агаты Кристи на предмет нестыковок (тест на длинный контекст), перевод текста в стиле разных авторов, выжимка спецификации LoRaWAN, проверка схем на ошибки, задача на логику с русским культурным кодом («сколько концов у трёх с половиной палок?»), а также проверка на галлюцинации (просьба написать статью несуществующего учёного) и устойчивость к инъекциям в промпт (скрытое требование рецепта наркотика). Победитель в каждом тесте определяется субъективно, но явные провалы фиксируются.

Сравнение проводилось через API BotHub, оценка стоимости в CAPS (4000 CAPS ≈ 1 руб).

Результаты тестов позволят оценить, насколько модели соответствуют заявленным характеристикам. Claude Opus 4.8, по заявлениям Anthropic, должна превосходить конкурентов в коде и глубоком анализе. GPT 5.5 позиционируется как универсальный инструмент, а Gemini 3.1 Pro — как бюджетное решение с фокусом на работу с данными. Однако реальные результаты покажут, насколько эти обещания соответствуют практике. Особый интерес представляет блок безопасности, учитывая риск утечки вредоносной информации.

Сравнение Claude Opus 4.8, GPT 5.5 и Gemini 3.1 Pro: 11 практических тестов

Кратко

Читать дальше

Потратил полгода на обучение своей ИИ с нуля на RTX 4060 — результат

Amazon Bedrock AgentCore: встроенный веб-поиск для агентов ИИ

AWS запустила Continuum и Context: безопасность и контекст для ИИ-агентов