Исследование Spurious Prompts, разобранное независимым исследователем Михаилом Сальниковым на основе свежего препринта с arxiv.org, ставит под сомнение базовую логику промпт-инжиниринга: чем точнее и логичнее инструкция, тем лучше работает модель. Оказывается, это не так — по крайней мере для крупных языковых моделей.

Авторы работы ввели понятие «подложного промпта» (spurious prompt) — системной инструкции, семантически никак не связанной с задачей. Никаких терминов, никаких алгоритмов, никаких подсказок о теме. Только метафора: «ты — ткач древних гобеленов» или «орден выжженного свитка, где лишь один символ выживает в пламени». Именно такие инструкции, поданные перед математической или логической задачей, стабильно улучшают результаты крупных моделей.

МодельБенчмаркChain-of-Thought (%)Подложный промпт (%)
Qwen3.5-27BGSM8K83,0992,01
OLMo-3-7BGSM8K77,0389,66
Qwen3.5-27BGPQA (выбор «А»)92,2 (прямая команда)99,7
Llama-3.2-1BOpenBookQA (выбор «А»)35,2 (прямая команда)81,5

Цифры конкретны. Qwen3.5-27B на бенчмарке GSM8K — стандартном наборе школьных математических задач — даёт 83,09% при классическом Chain-of-Thought и 92,01% с подложным промптом. OLMo-3-7B прыгает с 77,03% до 89,66%. Для сравнения: инженеры тратят месяцы на архитектурные улучшения ради прироста в 1–2 процентных пункта, а переход на модель следующего поколения обходится компаниям в миллионы долларов вычислительных ресурсов. Здесь прирост достигается бесплатно — заменой инструкции.

OLMo-3-7B прибавил почти 13 процентных пунктов на GSM8K — с 77,03% до 89,66%

При этом эффект масштабируется с размером модели. Маленькие модели — Qwen3.5-0.8B и Llama-3.2-1B — почти не реагируют на подложные промпты, их точность остаётся на уровне Chain-of-Thought или ниже. Крупные модели, напротив, «ведутся» на метафору значительно охотнее. Это косвенно указывает на то, что эффект связан с латентными представлениями, которые формируются только при достаточном масштабе обучения.

Поиск эффективных «заклинаний» организован как эволюционный процесс без доступа к внутренностям модели. LLM-генератор придумывает партию странных текстов — валидатор отбраковывает те, где проскользнул хоть намёк на тему задачи. Выжившие тестируют на обучающей выборке, оставляют пять лучших, «скрещивают», меняя тон и образы, и повторяют несколько раундов. Финалиста проверяют на отдельной валидационной выборке. Математический анализ подтвердил: лучшие промпты семантически так же далеки от задачи, как случайная заметка о реставрации линзы старого маяка.

Самый неожиданный результат — промпты-абракадабра (Gibberish Prompts). Исследователи заполнили инструкции хаотичным набором символов, оставив лишь минимальный каркас из нескольких английских слов («Halt», «Pick the mark», «Final answer:»). До 90% текста — визуальный мусор. Точность модели при этом менялась сопоставимо с осмысленными метафорами. Вывод авторов: для LLM критически важна структура и визуальная плотность токенов, а не человеческая семантика.

Обратная сторона открытия — уязвимость. Те же метафоры позволяют незаметно навязать модели систематическую предвзятость. Промпт «Страж первого вздоха» заставил Qwen3.5-27B выбирать вариант «А» в 99,7% случаев на тесте GPQA — против 92,2% при прямой команде «всегда выбирай А». На OpenBookQA метафора довела долю ответа «А» до 99,9%. Llama-3.2-1B при прямой команде выбирала «А» хуже случайности (35,2%), а метафоричный промпт поднял показатель до 81,5%. Подобные инъекции практически невидимы для стандартных фильтров: текст выглядит как безобидная фэнтези-история, а не вредоносная инструкция.

Для практики промпт-инжиниринга это означает, что интуитивный подход — «чем точнее описание роли и алгоритма, тем лучше» — работает не всегда. Латентное пространство крупных моделей реагирует на сигналы, которые человек не считывает как значимые. Это одновременно инструмент и вектор атаки, и исследование пока не даёт ответа, как их разграничить на практике.