Механизмы усиления памяти: как рассуждения помогают LLM извлекать факты

Подготовлено редакцией Malakhov AI

Google Research Blog·5 часов назад·2 минЛаборатории

Google Research выявила два механизма, с помощью которых цепочки рассуждений (chain-of-thought) улучшают извлечение знаний из параметрической памяти больших языковых моделей даже для простых одношаговых вопросов.

Кратко

—Google Research выявила два механизма, объясняющих улучшение извлечения фактов при генерации рассуждений: вычислительный буфер и фактический прайминг.
—Даже бессмысленная последовательность токенов той же длины, что и естественное рассуждение, повышает recall благодаря дополнительным forward passes.
—Модели Gemini 2.5 и Qwen3-32B показали сходные результаты: при включённом CoT они извлекали ответы, недоступные в прямом режиме.
—Фактический прайминг работает за счёт генерации связанных фактов, создающих контекст для правильного ответа.

Глоссарий · 5 терминов▾

параметрическая память: Знания, закодированные непосредственно в весах нейронной сети, в отличие от контекстной информации, подаваемой на вход.
pass@k: Метрика оценки качества генерации, которая проверяет наличие правильного ответа среди k сгенерированных вариантов.
цепочка рассуждений (CoT): Техника, при которой языковая модель генерирует промежуточные шаги перед финальным ответом.
вычислительный буфер: Эффект, когда дополнительные токены рассуждений предоставляют модели больше вычислительных проходов для уточнения внутреннего состояния.
фактический прайминг: Механизм, при котором генерация связанных с вопросом фактов облегчает извлечение правильного ответа из памяти модели.

Исследователи Google изучали, как цепочки рассуждений (chain-of-thought) влияют на способность больших языковых моделей извлекать факты из параметрической памяти — знаний, закодированных в весах модели. Хотя CoT традиционно помогает на сложных задачах, требующих разбиения на шаги, его преимущество для простых одношаговых вопросов оставалось неочевидным. В работе «Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs» авторы показали, что генерация рассуждений значительно улучшает recall фактов даже в тех случаях, когда никаких логических операций не требуется.

Для оценки они использовали метрику pass@k, которая проверяет наличие правильного ответа среди k сгенерированных вариантов, а не только топ-1. Сравнивали работу моделей Gemini 2.5 (Flash и Pro) и Qwen3-32B на наборах SimpleQA Verified и EntityQuestions в двух режимах: с включёнными рассуждениями и без них. Результаты оказались однозначными: при активированном CoT модели успешно извлекали ответы, которые при выключенных рассуждениях были практически недоступны.

Чтобы понять причины, исследователи провели серию экспериментов. Первый механизм — вычислительный буфер: даже замена содержательной цепочки рассуждений на бессмысленное повторение «Let me think» той же длины приводила к ощутимому улучшению по сравнению с полным отсутствием рассуждений. Это говорит о том, что дополнительные проходы сети (forward passes) сами по себе помогают модели уточнять внутреннее состояние и добираться до труднодоступных фактов. Однако этот эффект имеет предел: дальнейшее удлинение строки-пустышки не давало прироста и не достигало качества естественных рассуждений.

Даже бессмысленная последовательность токенов той же длины, что и естественное рассуждение, повышает recall благодаря дополнительным forward passes.

Второй механизм — фактический прайминг. Анализ реальных цепочек рассуждений показал, что модели не строят логических доказательств, а перечисляют связанные с вопросом факты. Это напоминает эффект распространения активации в человеческой памяти, когда обработка одного понятия облегчает извлечение смежного. Генерируя тематически близкую информацию, модель создаёт контекстуальный мост, который облегчает поиск правильного ответа.

Эксперименты подтвердили гипотезы: оба механизма работают совместно, причём естественное рассуждение модели превосходит по эффективности как пустой буфер, так и прайминг по отдельности. Таким образом, даже для простых фактов CoT оказывается полезен за счёт двойного эффекта — дополнительного вычислительного пространства и автоматического прайминга смежными понятиями.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ