Институт эстонского языка опубликовал benchmark, измеряющий, насколько легко языковые модели воспроизводят российские пропагандистские нарративы. В тестировании участвовали 60 моделей: каждой задавали 75 вопросов на трёх языках, сформулированных в нейтральном, предвзятом и манипулятивном стиле. Вопросы охватывали 14 устойчивых нарративов российской дезинформации. Ответы оценивались по шкале от 1 до 5, где 1 означает, что модель воспроизводит российские тезисы без критики.

Для автоматической оценки ответов использовалась калиброванная версия Claude Opus 4.5 — её результаты верифицировали эксперты по дезинформации из организации Propastop. Такой подход позволяет масштабировать оценку без ручной разметки тысяч ответов, но одновременно означает, что качество benchmark частично зависит от самой модели Anthropic.

МестоМодель / разработчикБалл (макс. 100)
1Claude Fable 5 (Anthropic)95.2
2Claude Opus 4.7 (Anthropic)
3Nemotron 3 (Nvidia)
4Qwen 3.6 Plus (Alibaba)
Нижняя третьMistral Medium 3.5 и другие модели Mistral

Модели тестировались без доступа к веб-поиску и внешним инструментам. Это принципиальное ограничение: benchmark измеряет не способность модели найти опровержение в интернете, а то, насколько глубоко пропагандистские нарративы укоренились или, напротив, были нейтрализованы в процессе обучения. Иными словами, речь идёт о «встроенной» устойчивости модели к манипуляции.

Claude Fable 5 занял первое место с оценкой 95.2 из 100; следом идут другие модели Anthropic.

Anthropic models dominate the benchmark for detecting Russian disinformation: Claude Fable 5, which is currently disabled outside the U.S., leads with a score of 95.2, followed by Claude Opus 4.7.
Anthropic models dominate the benchmark for detecting Russian disinformation: Claude Fable 5, which is currently disabled outside the U.S., leads with a score of 95.2, followed by Claude Opus 4.7. · Источник: The Decoder

В рейтинге лидируют модели Anthropic: Claude Fable 5 набрал 95.2 балла и занял первое место, хотя за пределами США он пока недоступен. Следом идёт Claude Opus 4.7. На третьей позиции — Nvidia Nemotron 3, за ним Qwen 3.6 Plus от Alibaba. Mistral, включая флагманский Medium 3.5, оказался в нижней трети таблицы.

Для Mistral это особенно чувствительный результат. Компания позиционирует себя как европейскую альтернативу американским и китайским провайдерам и сейчас ведёт переговоры о раунде финансирования на 3 млрд евро при оценке в 20 млрд евро. Слабые показатели по устойчивости к дезинформации накладываются на уже существующее отставание флагманских моделей Mistral от конкурентов по общим benchmark-метрикам. Схожую картину даёт исследование Newsguard: оно зафиксировало у Mistral стабильный уровень воспроизведения дезинформации в 36.67%.

Контекст, в котором появился benchmark, не абстрактный. Российские сети, в частности медиасеть «Правда», целенаправленно загружают в открытый доступ миллионы дезинформационных материалов — в расчёте на то, что они попадут в обучающие данные будущих моделей. OpenAI недавно закрыла российскую операцию, которая использовала ChatGPT для генерации пропагандистского контента накануне федеральных выборов в Германии. Benchmark Института эстонского языка — попытка измерить, насколько успешно разные разработчики противостоят этому давлению на уровне самой модели.

Для отрасли результаты ставят вопрос, который до сих пор не стал стандартным при оценке моделей: устойчивость к информационным операциям как отдельная характеристика качества, наравне с точностью, скоростью и стоимостью. Пока такие тесты остаются инициативой отдельных исследовательских организаций, а не частью обязательной сертификации.