Институт эстонского языка проверил 60 ИИ-моделей на устойчивость к российской пропаганде

Подготовлено редакцией Malakhov AI

The Decoder·16 июн.·2 минИсследованияИндустрия

Институт эстонского языка протестировал 60 языковых моделей на 75 вопросах по 14 пропагандистским нарративам — и выяснил, что модели Anthropic справляются лучше всех, а Mistral оказался в нижней трети рейтинга. Benchmark стал первым систематическим измерением того, насколько легко ИИ воспроизводит российские нарративы.

Кратко

—60 моделей тестировались на 75 вопросах в трёх языках, охватывающих 14 пропагандистских нарративов.
—Claude Fable 5 занял первое место с оценкой 95.2 из 100; следом идут другие модели Anthropic.
—Mistral, включая новый Medium 3.5, попал в нижнюю треть — при этом компания позиционирует себя как европейскую альтернативу.
—Модели тестировались без доступа к интернету: benchmark измеряет только внутренние знания и установки модели.
—OpenAI ранее закрыла российскую кампанию, использовавшую ChatGPT для распространения пропаганды перед выборами в Германии.

Глоссарий · 4 термина▾

benchmark: Стандартизированный набор тестов для сравнения характеристик разных моделей или систем по единой шкале.
LLM: Large Language Model — большая языковая модель, обученная на текстовых данных и способная генерировать связные тексты, отвечать на вопросы и выполнять инструкции.
пропагандистский нарратив: Устойчивая интерпретационная рамка или тезис, который целенаправленно распространяется для формирования определённой картины событий.
калиброванная модель-оценщик: Языковая модель, настроенная на конкретную задачу оценки и проверенная на соответствие человеческим суждениям, используется для автоматической разметки ответов.

Институт эстонского языка опубликовал benchmark, измеряющий, насколько легко языковые модели воспроизводят российские пропагандистские нарративы. В тестировании участвовали 60 моделей: каждой задавали 75 вопросов на трёх языках, сформулированных в нейтральном, предвзятом и манипулятивном стиле. Вопросы охватывали 14 устойчивых нарративов российской дезинформации. Ответы оценивались по шкале от 1 до 5, где 1 означает, что модель воспроизводит российские тезисы без критики.

Для автоматической оценки ответов использовалась калиброванная версия Claude Opus 4.5 — её результаты верифицировали эксперты по дезинформации из организации Propastop. Такой подход позволяет масштабировать оценку без ручной разметки тысяч ответов, но одновременно означает, что качество benchmark частично зависит от самой модели Anthropic.

Место	Модель / разработчик	Балл (макс. 100)
1	Claude Fable 5 (Anthropic)	95.2
2	Claude Opus 4.7 (Anthropic)	—
3	Nemotron 3 (Nvidia)	—
4	Qwen 3.6 Plus (Alibaba)	—
Нижняя треть	Mistral Medium 3.5 и другие модели Mistral	—

Модели тестировались без доступа к веб-поиску и внешним инструментам. Это принципиальное ограничение: benchmark измеряет не способность модели найти опровержение в интернете, а то, насколько глубоко пропагандистские нарративы укоренились или, напротив, были нейтрализованы в процессе обучения. Иными словами, речь идёт о «встроенной» устойчивости модели к манипуляции.

Claude Fable 5 занял первое место с оценкой 95.2 из 100; следом идут другие модели Anthropic.

Anthropic models dominate the benchmark for detecting Russian disinformation: Claude Fable 5, which is currently disabled outside the U.S., leads with a score of 95.2, followed by Claude Opus 4.7. · Источник: The Decoder

В рейтинге лидируют модели Anthropic: Claude Fable 5 набрал 95.2 балла и занял первое место, хотя за пределами США он пока недоступен. Следом идёт Claude Opus 4.7. На третьей позиции — Nvidia Nemotron 3, за ним Qwen 3.6 Plus от Alibaba. Mistral, включая флагманский Medium 3.5, оказался в нижней трети таблицы.

Для Mistral это особенно чувствительный результат. Компания позиционирует себя как европейскую альтернативу американским и китайским провайдерам и сейчас ведёт переговоры о раунде финансирования на 3 млрд евро при оценке в 20 млрд евро. Слабые показатели по устойчивости к дезинформации накладываются на уже существующее отставание флагманских моделей Mistral от конкурентов по общим benchmark-метрикам. Схожую картину даёт исследование Newsguard: оно зафиксировало у Mistral стабильный уровень воспроизведения дезинформации в 36.67%.

Контекст, в котором появился benchmark, не абстрактный. Российские сети, в частности медиасеть «Правда», целенаправленно загружают в открытый доступ миллионы дезинформационных материалов — в расчёте на то, что они попадут в обучающие данные будущих моделей. OpenAI недавно закрыла российскую операцию, которая использовала ChatGPT для генерации пропагандистского контента накануне федеральных выборов в Германии. Benchmark Института эстонского языка — попытка измерить, насколько успешно разные разработчики противостоят этому давлению на уровне самой модели.

Для отрасли результаты ставят вопрос, который до сих пор не стал стандартным при оценке моделей: устойчивость к информационным операциям как отдельная характеристика качества, наравне с точностью, скоростью и стоимостью. Пока такие тесты остаются инициативой отдельных исследовательских организаций, а не частью обязательной сертификации.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

Институт эстонского языка проверил 60 ИИ-моделей на устойчивость к российской пропаганде

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента