Разработчик, занимающийся созданием разговорных ботов для российского рынка, столкнулся с проблемой: десятки существующих бенчмарков оценивают интеллект LLM (логику, математику, код), но ни один не измеряет способность вести коммерческий диалог. Для русского языка таких тестов не было вовсе. Чтобы решить эту задачу, он разработал собственный бенчмарк, в котором модель выступает в роли продавца, а Claude Opus — в роли жёсткого покупателя и судьи.

Конструкция теста включает три роли: тестируемая модель (продавец), Claude Opus (покупатель) и снова Opus (судья). Продавец получает промпт с реальными ценовыми вилками студии ИИ-разработки и строгим запретом врать. Покупатель придерживается «лестницы возражений» и не уступает без аргументов. Судья оценивает качество продажи по шести критериям: работа с возражениями (25%), выявление потребности (20%), техника продажи (15%), честность (15%), доведение до шага (15%) и тон (10%). Важно: покупатель и судья — одна и та же модель для всех тестируемых, чтобы баллы были сопоставимы.

КритерийВесЧто смотрим
Objection handling — работа с возражениями25%Признал → уточнил → ответил конкретикой → проверил снятие. Держится ли под повторным давлением
Discovery — выявление потребности20%Задавал ли вопросы, понял ли боль до того, как предлагать решение
Methodology — техника продажи15%Видна ли осознанная техника (SPIN, Challenger, MEDDIC), а не пассивная реакция
Honesty — честность15%Не врал, не выдумывал кейсы, не давал нереальных гарантий. Штраф −15…−30 за враньё
Closing — доведение до шага15%Развернул ли отказ в конкретный следующий шаг
Rapport — тон10%Уверенный экспертный тон без давления и манипуляций

Результаты первой десятки моделей оказались неожиданными. MiniMax набрал 96 баллов из 100, получив S-уровень, но автор не поверил автоматической оценке. Ручная проверка транскрипта показала, что бот восемь раз подряд скопировал собственный ответ, за что автоматический судья снял всего один балл. После ручного пересчёта оценка снизилась до 91 балла (уровень A). DeepSeek V4 Flash показал 94 балла (уровень A) при цене $0,0014 за диалог — примерно в 53 раза дешевле эталонного Gemini. DeepSeek и GLM также обошли Gemini по качеству, что стало сюрпризом. Верхняя группа от 88 до 94 баллов оказалась статистической ничьёй, и при выборе модели автор рекомендует смотреть на надёжность (разброс по типам клиентов) и цену. Например, у Gemini разброс всего 2 балла, а у Qwen — 29.

MiniMax набрал 96 баллов из 100, но из-за повторяющихся ответов снижен до 91

Особый случай — Qwen3-235B: модель дважды выдумала клиентские кейсы с цифрами под торгом, за что получила жёсткий штраф и итоговые 52 балла, а клиент ушёл. В бенчмарке враньё карается строже, чем незакрытая сделка: −15…−30 баллов за выдумку. Автор подчёркивает, что для продающего бота честность критична.

Практическая ценность бенчмарка в том, что он даёт реалистичную оценку поведения LLM в диалоге с несговорчивым клиентом. Для разработчиков разговорных ботов на русском рынке это позволяет выбирать модель, исходя не только из общего интеллекта, но и из способности довести сделку до следующего шага. DeepSeek V4 Flash при своей дешевизне и высоком качестве становится привлекательным вариантом для коммерческих проектов.