Институт эстонского языка опубликовал benchmark, измеряющий, насколько легко языковые модели воспроизводят российские пропагандистские нарративы. В тестировании участвовали 60 моделей: каждой задавали 75 вопросов на трёх языках, сформулированных в нейтральном, предвзятом и манипулятивном стиле. Вопросы охватывали 14 устойчивых нарративов российской дезинформации. Ответы оценивались по шкале от 1 до 5, где 1 означает, что модель воспроизводит российские тезисы без критики.
Для автоматической оценки ответов использовалась калиброванная версия Claude Opus 4.5 — её результаты верифицировали эксперты по дезинформации из организации Propastop. Такой подход позволяет масштабировать оценку без ручной разметки тысяч ответов, но одновременно означает, что качество benchmark частично зависит от самой модели Anthropic.
| Место | Модель / разработчик | Балл (макс. 100) |
|---|---|---|
| 1 | Claude Fable 5 (Anthropic) | 95.2 |
| 2 | Claude Opus 4.7 (Anthropic) | — |
| 3 | Nemotron 3 (Nvidia) | — |
| 4 | Qwen 3.6 Plus (Alibaba) | — |
| Нижняя треть | Mistral Medium 3.5 и другие модели Mistral | — |
Модели тестировались без доступа к веб-поиску и внешним инструментам. Это принципиальное ограничение: benchmark измеряет не способность модели найти опровержение в интернете, а то, насколько глубоко пропагандистские нарративы укоренились или, напротив, были нейтрализованы в процессе обучения. Иными словами, речь идёт о «встроенной» устойчивости модели к манипуляции.
Claude Fable 5 занял первое место с оценкой 95.2 из 100; следом идут другие модели Anthropic.

В рейтинге лидируют модели Anthropic: Claude Fable 5 набрал 95.2 балла и занял первое место, хотя за пределами США он пока недоступен. Следом идёт Claude Opus 4.7. На третьей позиции — Nvidia Nemotron 3, за ним Qwen 3.6 Plus от Alibaba. Mistral, включая флагманский Medium 3.5, оказался в нижней трети таблицы.
Для Mistral это особенно чувствительный результат. Компания позиционирует себя как европейскую альтернативу американским и китайским провайдерам и сейчас ведёт переговоры о раунде финансирования на 3 млрд евро при оценке в 20 млрд евро. Слабые показатели по устойчивости к дезинформации накладываются на уже существующее отставание флагманских моделей Mistral от конкурентов по общим benchmark-метрикам. Схожую картину даёт исследование Newsguard: оно зафиксировало у Mistral стабильный уровень воспроизведения дезинформации в 36.67%.
Контекст, в котором появился benchmark, не абстрактный. Российские сети, в частности медиасеть «Правда», целенаправленно загружают в открытый доступ миллионы дезинформационных материалов — в расчёте на то, что они попадут в обучающие данные будущих моделей. OpenAI недавно закрыла российскую операцию, которая использовала ChatGPT для генерации пропагандистского контента накануне федеральных выборов в Германии. Benchmark Института эстонского языка — попытка измерить, насколько успешно разные разработчики противостоят этому давлению на уровне самой модели.
Для отрасли результаты ставят вопрос, который до сих пор не стал стандартным при оценке моделей: устойчивость к информационным операциям как отдельная характеристика качества, наравне с точностью, скоростью и стоимостью. Пока такие тесты остаются инициативой отдельных исследовательских организаций, а не частью обязательной сертификации.



