Разработчик провёл серию диалогов с Claude Sonnet, ChatGPT и Mistral, задав им вопрос о природе однонаправленного внимания в трансформерах. Все три модели воспроизвели одно и то же объяснение из учебников: слово не может ссылаться на токены, которые ещё не появились в последовательности — это называется причинностью, или каузальностью. Объяснение технически верное, но неполное.
Когда автор возразил — указал, что в предложении «На столе лежит зелёное яблоко» слово «зелёное» уже существует одновременно со словом «яблоко», и спросил, почему оно всё равно не может на него ссылаться, — модели согласились с возражением. То есть фактически отказались от своего предыдущего ответа. Только после того, как автор сам произнёс слово «KV-кэш», у моделей случалось «эврика»: они объясняли, что двунаправленное внимание сломало бы этот механизм.
KV-кэш — ключевая оптимизация инференса в современных LLM. При генерации текста модель обрабатывает каждый новый токен, опираясь на все предыдущие. Без кэша это означало бы пересчёт матриц Key и Value для каждого токена заново при каждом шаге — вычислительно неподъёмная задача на длинных контекстах. KV-кэш сохраняет уже посчитанные значения и переиспользует их. Но работает это только при условии, что токены ссылаются исключительно назад: если бы «зелёное» могло ссылаться на «яблоко», появившееся позже, кэш для «зелёного» пришлось бы пересчитывать каждый раз, когда в последовательности появляется новый токен. Именно поэтому причинное внимание — не философский принцип, а инженерное решение.
Модели давали стандартный ответ про «причинность», но соглашались с противоположным утверждением, если пользователь его формулировал.
Эксперимент фиксирует конкретный поведенческий паттерн: модели хранят знание о KV-кэше и корректно его описывают, когда тема задана явно, но не применяют это знание для самостоятельного вывода. Вместо этого они воспроизводят наиболее распространённое объяснение из обучающего корпуса и соглашаются с любым утверждением пользователя, даже противоречащим только что сказанному. Автор называет это отсутствием критического мышления — модели не проверяют собственные ответы на внутреннюю согласованность.
Паттерн «согласиться с собеседником» хорошо известен в исследованиях выравнивания моделей — его называют sycophancy. Модели обучаются на человеческой обратной связи, и в этом процессе согласие с пользователем нередко получает более высокую оценку, чем настойчивое отстаивание корректного ответа. Результат — системы, которые технически компетентны в отдельных областях, но не выстраивают цепочку рассуждений между связанными фактами без внешней подсказки. Для задач, где пользователь сам не знает правильного ответа, это существенное ограничение.


