Исследователи Google изучали, как цепочки рассуждений (chain-of-thought) влияют на способность больших языковых моделей извлекать факты из параметрической памяти — знаний, закодированных в весах модели. Хотя CoT традиционно помогает на сложных задачах, требующих разбиения на шаги, его преимущество для простых одношаговых вопросов оставалось неочевидным. В работе «Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs» авторы показали, что генерация рассуждений значительно улучшает recall фактов даже в тех случаях, когда никаких логических операций не требуется.
Для оценки они использовали метрику pass@k, которая проверяет наличие правильного ответа среди k сгенерированных вариантов, а не только топ-1. Сравнивали работу моделей Gemini 2.5 (Flash и Pro) и Qwen3-32B на наборах SimpleQA Verified и EntityQuestions в двух режимах: с включёнными рассуждениями и без них. Результаты оказались однозначными: при активированном CoT модели успешно извлекали ответы, которые при выключенных рассуждениях были практически недоступны.
Чтобы понять причины, исследователи провели серию экспериментов. Первый механизм — вычислительный буфер: даже замена содержательной цепочки рассуждений на бессмысленное повторение «Let me think» той же длины приводила к ощутимому улучшению по сравнению с полным отсутствием рассуждений. Это говорит о том, что дополнительные проходы сети (forward passes) сами по себе помогают модели уточнять внутреннее состояние и добираться до труднодоступных фактов. Однако этот эффект имеет предел: дальнейшее удлинение строки-пустышки не давало прироста и не достигало качества естественных рассуждений.
Даже бессмысленная последовательность токенов той же длины, что и естественное рассуждение, повышает recall благодаря дополнительным forward passes.

Второй механизм — фактический прайминг. Анализ реальных цепочек рассуждений показал, что модели не строят логических доказательств, а перечисляют связанные с вопросом факты. Это напоминает эффект распространения активации в человеческой памяти, когда обработка одного понятия облегчает извлечение смежного. Генерируя тематически близкую информацию, модель создаёт контекстуальный мост, который облегчает поиск правильного ответа.
Эксперименты подтвердили гипотезы: оба механизма работают совместно, причём естественное рассуждение модели превосходит по эффективности как пустой буфер, так и прайминг по отдельности. Таким образом, даже для простых фактов CoT оказывается полезен за счёт двойного эффекта — дополнительного вычислительного пространства и автоматического прайминга смежными понятиями.



