Исследование Spurious Prompts, разобранное независимым исследователем Михаилом Сальниковым на основе свежего препринта с arxiv.org, ставит под сомнение базовую логику промпт-инжиниринга: чем точнее и логичнее инструкция, тем лучше работает модель. Оказывается, это не так — по крайней мере для крупных языковых моделей.
Авторы работы ввели понятие «подложного промпта» (spurious prompt) — системной инструкции, семантически никак не связанной с задачей. Никаких терминов, никаких алгоритмов, никаких подсказок о теме. Только метафора: «ты — ткач древних гобеленов» или «орден выжженного свитка, где лишь один символ выживает в пламени». Именно такие инструкции, поданные перед математической или логической задачей, стабильно улучшают результаты крупных моделей.
| Модель | Бенчмарк | Chain-of-Thought (%) | Подложный промпт (%) |
|---|---|---|---|
| Qwen3.5-27B | GSM8K | 83,09 | 92,01 |
| OLMo-3-7B | GSM8K | 77,03 | 89,66 |
| Qwen3.5-27B | GPQA (выбор «А») | 92,2 (прямая команда) | 99,7 |
| Llama-3.2-1B | OpenBookQA (выбор «А») | 35,2 (прямая команда) | 81,5 |
Цифры конкретны. Qwen3.5-27B на бенчмарке GSM8K — стандартном наборе школьных математических задач — даёт 83,09% при классическом Chain-of-Thought и 92,01% с подложным промптом. OLMo-3-7B прыгает с 77,03% до 89,66%. Для сравнения: инженеры тратят месяцы на архитектурные улучшения ради прироста в 1–2 процентных пункта, а переход на модель следующего поколения обходится компаниям в миллионы долларов вычислительных ресурсов. Здесь прирост достигается бесплатно — заменой инструкции.
OLMo-3-7B прибавил почти 13 процентных пунктов на GSM8K — с 77,03% до 89,66%
При этом эффект масштабируется с размером модели. Маленькие модели — Qwen3.5-0.8B и Llama-3.2-1B — почти не реагируют на подложные промпты, их точность остаётся на уровне Chain-of-Thought или ниже. Крупные модели, напротив, «ведутся» на метафору значительно охотнее. Это косвенно указывает на то, что эффект связан с латентными представлениями, которые формируются только при достаточном масштабе обучения.
Поиск эффективных «заклинаний» организован как эволюционный процесс без доступа к внутренностям модели. LLM-генератор придумывает партию странных текстов — валидатор отбраковывает те, где проскользнул хоть намёк на тему задачи. Выжившие тестируют на обучающей выборке, оставляют пять лучших, «скрещивают», меняя тон и образы, и повторяют несколько раундов. Финалиста проверяют на отдельной валидационной выборке. Математический анализ подтвердил: лучшие промпты семантически так же далеки от задачи, как случайная заметка о реставрации линзы старого маяка.
Самый неожиданный результат — промпты-абракадабра (Gibberish Prompts). Исследователи заполнили инструкции хаотичным набором символов, оставив лишь минимальный каркас из нескольких английских слов («Halt», «Pick the mark», «Final answer:»). До 90% текста — визуальный мусор. Точность модели при этом менялась сопоставимо с осмысленными метафорами. Вывод авторов: для LLM критически важна структура и визуальная плотность токенов, а не человеческая семантика.
Обратная сторона открытия — уязвимость. Те же метафоры позволяют незаметно навязать модели систематическую предвзятость. Промпт «Страж первого вздоха» заставил Qwen3.5-27B выбирать вариант «А» в 99,7% случаев на тесте GPQA — против 92,2% при прямой команде «всегда выбирай А». На OpenBookQA метафора довела долю ответа «А» до 99,9%. Llama-3.2-1B при прямой команде выбирала «А» хуже случайности (35,2%), а метафоричный промпт поднял показатель до 81,5%. Подобные инъекции практически невидимы для стандартных фильтров: текст выглядит как безобидная фэнтези-история, а не вредоносная инструкция.
Для практики промпт-инжиниринга это означает, что интуитивный подход — «чем точнее описание роли и алгоритма, тем лучше» — работает не всегда. Латентное пространство крупных моделей реагирует на сигналы, которые человек не считывает как значимые. Это одновременно инструмент и вектор атаки, и исследование пока не даёт ответа, как их разграничить на практике.
