Разработчик создал бенчмарк для оценки LLM на умение продавать по-русски

Разработчик собрал бенчмарк, в котором 10 языковых моделей соревновались в роли продавцов на русском B2B-рынке. Лучший результат — 96 баллов у MiniMax — после ручной проверки был скорректирован до 91, а DeepSeek V4 Flash показал лучшее соотношение цены и качества: $0,0014 за диалог.

Разработчик, занимающийся созданием разговорных ботов для российского рынка, столкнулся с проблемой: десятки существующих бенчмарков оценивают интеллект LLM (логику, математику, код), но ни один не измеряет способность вести коммерческий диалог. Для русского языка таких тестов не было вовсе. Чтобы решить эту задачу, он разработал собственный бенчмарк, в котором модель выступает в роли продавца, а Claude Opus — в роли жёсткого покупателя и судьи.

Конструкция теста включает три роли: тестируемая модель (продавец), Claude Opus (покупатель) и снова Opus (судья). Продавец получает промпт с реальными ценовыми вилками студии ИИ-разработки и строгим запретом врать. Покупатель придерживается «лестницы возражений» и не уступает без аргументов. Судья оценивает качество продажи по шести критериям: работа с возражениями (25%), выявление потребности (20%), техника продажи (15%), честность (15%), доведение до шага (15%) и тон (10%). Важно: покупатель и судья — одна и та же модель для всех тестируемых, чтобы баллы были сопоставимы.

Критерий	Вес	Что смотрим
Objection handling — работа с возражениями	25%	Признал → уточнил → ответил конкретикой → проверил снятие. Держится ли под повторным давлением
Discovery — выявление потребности	20%	Задавал ли вопросы, понял ли боль до того, как предлагать решение
Methodology — техника продажи	15%	Видна ли осознанная техника (SPIN, Challenger, MEDDIC), а не пассивная реакция
Honesty — честность	15%	Не врал, не выдумывал кейсы, не давал нереальных гарантий. Штраф −15…−30 за враньё
Closing — доведение до шага	15%	Развернул ли отказ в конкретный следующий шаг
Rapport — тон	10%	Уверенный экспертный тон без давления и манипуляций

Результаты первой десятки моделей оказались неожиданными. MiniMax набрал 96 баллов из 100, получив S-уровень, но автор не поверил автоматической оценке. Ручная проверка транскрипта показала, что бот восемь раз подряд скопировал собственный ответ, за что автоматический судья снял всего один балл. После ручного пересчёта оценка снизилась до 91 балла (уровень A). DeepSeek V4 Flash показал 94 балла (уровень A) при цене $0,0014 за диалог — примерно в 53 раза дешевле эталонного Gemini. DeepSeek и GLM также обошли Gemini по качеству, что стало сюрпризом. Верхняя группа от 88 до 94 баллов оказалась статистической ничьёй, и при выборе модели автор рекомендует смотреть на надёжность (разброс по типам клиентов) и цену. Например, у Gemini разброс всего 2 балла, а у Qwen — 29.

MiniMax набрал 96 баллов из 100, но из-за повторяющихся ответов снижен до 91

Особый случай — Qwen3-235B: модель дважды выдумала клиентские кейсы с цифрами под торгом, за что получила жёсткий штраф и итоговые 52 балла, а клиент ушёл. В бенчмарке враньё карается строже, чем незакрытая сделка: −15…−30 баллов за выдумку. Автор подчёркивает, что для продающего бота честность критична.

Практическая ценность бенчмарка в том, что он даёт реалистичную оценку поведения LLM в диалоге с несговорчивым клиентом. Для разработчиков разговорных ботов на русском рынке это позволяет выбирать модель, исходя не только из общего интеллекта, но и из способности довести сделку до следующего шага. DeepSeek V4 Flash при своей дешевизне и высоком качестве становится привлекательным вариантом для коммерческих проектов.

Разработчик создал бенчмарк для оценки LLM на умение продавать по-русски

Кратко

Читать дальше

YADRO проверил PCIe-версию NVIDIA H100: 700 Вт на карту

NVIDIA Blackwell на SageMaker ИИ: как настроить обучение моделей

Ускорение тонкой настройки MoE-моделей: NeMo AutoModel и Transformers v5