Запрет штампов в промптах может ухудшить логику ответов LLM

Эксперимент с Gemini показал: запрет конструкции «не X, а Y» в промпте приводит к потере концептов, требующих противопоставления — bias-variance tradeoff, методы борьбы с переобучением, причинно-следственные связи. Для языковой модели языковые паттерны — не стиль, а инструмент мышления.

Борьба с «ИИ-штампами» стала отдельным жанром редакторских правок. Фразы вроде «раскроем потенциал», «в эпоху цифровизации» и «это не просто X, это Y» превратились в маркеры машинного текста, и редакторы всё настойчивее просят их убирать. Логичный ответ авторов — вписать запрет прямо в промпт. Однако у этого решения есть побочный эффект, который стоит понимать до того, как редактировать системные инструкции.

Автор материала на Хабре провёл простой эксперимент с Gemini: три сессии, три варианта промпта с просьбой объяснить разницу между overfitting и underfitting. Первый — прямой вопрос без ограничений. Второй — с запретом конструкции «не X, а Y». Третий — с явным требованием противопоставлять понятия. Первый и третий промпты дали полные объяснения, охватывающие bias-variance tradeoff, причины переобучения и методы борьбы с ним. Второй — потерял именно эти концепты: те, что семантически существуют на границе между двумя явлениями и требуют противопоставления для выражения.

Промпт	Результат
Прямой вопрос без ограничений	Полное объяснение: bias-variance tradeoff, причины, методы борьбы
Запрет конструкции «не X, а Y»	Потеря концептов, требующих противопоставления: tradeoff, методы, причины
Явное требование противопоставлять понятия	Полное объяснение с покрытием всех концептов

Причина в архитектуре языковых моделей. LLM обучается на паттернах миллионов текстов, и для неё язык — не способ описать мысль, а сам механизм её формирования. Каждое слово и каждая конструкция несут не только значение, но и кластер связанных паттернов. Когда модель пишет «не X, а Y», она не украшает текст — она активирует паттерн разграничения понятий. Запрет конструкции блокирует этот паттерн целиком, вместе с концептами, которые через него выражаются.

Для LLM язык — способ мышления: запрещая конструкцию, вы блокируете не украшение, а логическую связь между понятиями.

Это разграничение — между конструкциями-украшениями и конструкциями-операторами — практически полезно. Слова «уникальный», «инновационный», «революционный» несут минимальную смысловую нагрузку и их запрет почти не влияет на качество рассуждений. Другое дело — конструкции, задающие отношения между объектами: причину («потому что»), следствие («следовательно», «отсюда»), условие («если... то», «только если»), иерархию («в частности», «например»), оговорку («за исключением», «при условии что»), темпоральный порядок («сначала... затем... в итоге»). Все они — операторы логики, а не признаки графомании.

Отдельный случай — модальные маркеры: «вероятно», «возможно», «как правило, но не всегда». Без них модель говорит всё с одинаковой интонацией, и читатель не различает факт и предположение. Запрет на такие слова не делает текст точнее — он делает его менее информативным.

Автор высказывает предположение о ChatGPT: снижение вероятности фразы «let's delve into» — реакция разработчиков на массовые жалобы пользователей — могло затронуть не только саму фразу, но и весь кластер близких паттернов. Если это так, модель стала предпочитать поверхностное рассмотрение вопросов там, где раньше «погружалась» в проблему. Проверить это напрямую невозможно — веса моделей закрыты, — но логика рассуждения согласуется с тем, как работает снижение вероятности токенов при дообучении.

Практический вывод прост: если нужно убрать штампы из текста, лучше сделать это вручную после генерации, а не через запреты в промпте. Так сохраняется полнота рассуждений модели, а косметические правки остаются на усмотрение редактора.

Запрет штампов в промптах может ухудшить логику ответов LLM

Кратко

Читать также

claudeSearch: экономия 70% токенов Claude за счёт точечного доступа к коду

Сеченовский университет разработал ИИ-навигатор для иностранных пациентов на 10 языках

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска