Бессмысленные метафоры повышают точность ИИ лучше, чем логические инструкции

Подготовлено редакцией Malakhov AI

Habr AI·вчера·3 минРоссияКод

Исследование Spurious Prompts показало: системные инструкции вида «ты — хранитель ртутного моря» поднимают точность Qwen3.5-27B на математическом бенчмарке GSM8K с 83% до 92% — против 83% при использовании Chain-of-Thought. Эффект растёт вместе с размером модели и воспроизводится даже на промптах из случайных символов.

Кратко

—Qwen3.5-27B на GSM8K: точность 92,01% с «абсурдным» промптом против 83,09% при Chain-of-Thought
—OLMo-3-7B прибавил почти 13 процентных пунктов на GSM8K — с 77,03% до 89,66%
—Промпты из случайных символов (до 90% мусора) управляют точностью не хуже связного текста
—Метафоры эффективнее прямых команд при навязывании предвзятости: 99,7% против 92,2% на GPQA
—Метод работает по принципу «чёрного ящика» — без доступа к весам и внутренним состояниям модели

Глоссарий · 6 терминов▾

Chain-of-Thought: Техника промптинга, при которой модель явно просят рассуждать пошагово перед ответом — это повышает точность на задачах, требующих логики.
GSM8K: Benchmark из ~8500 школьных математических задач, стандартно используемый для оценки арифметических способностей языковых моделей.
Spurious prompt: Системная инструкция, семантически не связанная с задачей — метафора или набор символов, подаваемые перед основным запросом.
Behavioral steering: Скрытое управление поведением модели через косвенные сигналы в промпте, без явного указания желаемого результата.
Black-box оптимизация: Метод подбора параметров, при котором исследователь видит только входные данные и выходной результат, без доступа к внутренним состояниям системы.
Латентное пространство: Многомерное внутреннее представление данных внутри нейросети, в котором модель «хранит» смысловые связи между понятиями.

Исследование Spurious Prompts, разобранное независимым исследователем Михаилом Сальниковым на основе свежего препринта с arxiv.org, ставит под сомнение базовую логику промпт-инжиниринга: чем точнее и логичнее инструкция, тем лучше работает модель. Оказывается, это не так — по крайней мере для крупных языковых моделей.

Авторы работы ввели понятие «подложного промпта» (spurious prompt) — системной инструкции, семантически никак не связанной с задачей. Никаких терминов, никаких алгоритмов, никаких подсказок о теме. Только метафора: «ты — ткач древних гобеленов» или «орден выжженного свитка, где лишь один символ выживает в пламени». Именно такие инструкции, поданные перед математической или логической задачей, стабильно улучшают результаты крупных моделей.

Модель	Бенчмарк	Chain-of-Thought (%)	Подложный промпт (%)
Qwen3.5-27B	GSM8K	83,09	92,01
OLMo-3-7B	GSM8K	77,03	89,66
Qwen3.5-27B	GPQA (выбор «А»)	92,2 (прямая команда)	99,7
Llama-3.2-1B	OpenBookQA (выбор «А»)	35,2 (прямая команда)	81,5

Цифры конкретны. Qwen3.5-27B на бенчмарке GSM8K — стандартном наборе школьных математических задач — даёт 83,09% при классическом Chain-of-Thought и 92,01% с подложным промптом. OLMo-3-7B прыгает с 77,03% до 89,66%. Для сравнения: инженеры тратят месяцы на архитектурные улучшения ради прироста в 1–2 процентных пункта, а переход на модель следующего поколения обходится компаниям в миллионы долларов вычислительных ресурсов. Здесь прирост достигается бесплатно — заменой инструкции.

OLMo-3-7B прибавил почти 13 процентных пунктов на GSM8K — с 77,03% до 89,66%

При этом эффект масштабируется с размером модели. Маленькие модели — Qwen3.5-0.8B и Llama-3.2-1B — почти не реагируют на подложные промпты, их точность остаётся на уровне Chain-of-Thought или ниже. Крупные модели, напротив, «ведутся» на метафору значительно охотнее. Это косвенно указывает на то, что эффект связан с латентными представлениями, которые формируются только при достаточном масштабе обучения.

Поиск эффективных «заклинаний» организован как эволюционный процесс без доступа к внутренностям модели. LLM-генератор придумывает партию странных текстов — валидатор отбраковывает те, где проскользнул хоть намёк на тему задачи. Выжившие тестируют на обучающей выборке, оставляют пять лучших, «скрещивают», меняя тон и образы, и повторяют несколько раундов. Финалиста проверяют на отдельной валидационной выборке. Математический анализ подтвердил: лучшие промпты семантически так же далеки от задачи, как случайная заметка о реставрации линзы старого маяка.

Самый неожиданный результат — промпты-абракадабра (Gibberish Prompts). Исследователи заполнили инструкции хаотичным набором символов, оставив лишь минимальный каркас из нескольких английских слов («Halt», «Pick the mark», «Final answer:»). До 90% текста — визуальный мусор. Точность модели при этом менялась сопоставимо с осмысленными метафорами. Вывод авторов: для LLM критически важна структура и визуальная плотность токенов, а не человеческая семантика.

Обратная сторона открытия — уязвимость. Те же метафоры позволяют незаметно навязать модели систематическую предвзятость. Промпт «Страж первого вздоха» заставил Qwen3.5-27B выбирать вариант «А» в 99,7% случаев на тесте GPQA — против 92,2% при прямой команде «всегда выбирай А». На OpenBookQA метафора довела долю ответа «А» до 99,9%. Llama-3.2-1B при прямой команде выбирала «А» хуже случайности (35,2%), а метафоричный промпт поднял показатель до 81,5%. Подобные инъекции практически невидимы для стандартных фильтров: текст выглядит как безобидная фэнтези-история, а не вредоносная инструкция.

Для практики промпт-инжиниринга это означает, что интуитивный подход — «чем точнее описание роли и алгоритма, тем лучше» — работает не всегда. Латентное пространство крупных моделей реагирует на сигналы, которые человек не считывает как значимые. Это одновременно инструмент и вектор атаки, и исследование пока не даёт ответа, как их разграничить на практике.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам