Нажимая кнопку Thinking в интерфейсе чат-бота, пользователь обычно предполагает, что модель просто «прикладывает больше усилий». На деле речь идёт о принципиально другом способе генерации текста, у которого есть конкретная техническая основа, измеримые преимущества и вполне реальные ограничения.

Чтобы понять, зачем вообще понадобился thinking-режим, нужно разобраться с фундаментальной особенностью стандартных языковых моделей. Обычная LLM генерирует текст строго слева направо, токен за токеном, без возможности вернуться и переосмыслить уже написанное. Если в самом начале ответа модель выбрала чуть неудачный поворот — она будет последовательно развивать именно его до конца абзаца. Никакого внутреннего сигнала «стоп, я ошибаюсь» не существует. Именно поэтому модели иногда убедительно выдают неверные ответы: не потому что не знают правильного, а потому что однажды свернули не туда — и обратного пути нет. Особенно остро это проявляется в математике, формальной логике и многоходовых рассуждениях с условиями, где одна ранняя ошибка тянет за собой цепочку следующих.

Несколько лет назад исследователи из Google заметили воспроизводимый эффект: если перед финальным ответом попросить модель написать промежуточные шаги рассуждения, она начинает ошибаться заметно реже. Простая инструкция «думай шаг за шагом» реально улучшала результат на математических и логических задачах — иногда драматически. Механизм прост: промежуточные токены-рассуждения становятся частью контекста и напрямую влияют на следующие токены. Модель оставляет себе черновик прямо в тексте и опирается на него при формулировке финального ответа. Этот подход получил название chain-of-thought — цепочка рассуждений. Поначалу это был приём промпт-инжиниринга, но затем исследователи сделали промежуточные рассуждения обязательной частью архитектуры обучения.

Исследователи Google обнаружили: если попросить модель писать промежуточные шаги, она ошибается заметно реже — так появился chain-of-thought.

Модели o1, o3 и DeepSeek-R1 устроены именно так: thinking стал не внешним трюком, а встроенным поведением. Перед финальным ответом модель генерирует длинный внутренний монолог — иногда в несколько тысяч токенов. В нём она перебирает разные подходы, замечает собственные противоречия, возвращается к более раннему шагу, проверяет промежуточные выводы. Этот монолог буквально влияет на финальный ответ, потому что является частью контекста, на котором строится вывод. Отсюда два практических следствия: thinking-режим заметно медленнее — иногда в разы — и дороже в вычислительном смысле, поскольку каждый токен внутреннего монолога стоит столько же, сколько токен в финальном ответе.

Thinking реально помогает в задачах, где важна точная последовательность шагов: математика, сложный код с нетривиальной архитектурой, многоходовые рассуждения с условиями, поиск логических противоречий в тексте, отладка сложного алгоритма. Но для простого фактического вопроса, короткого письма, творческого текста без жёстких ограничений или быстрого перевода thinking избыточен — обычный режим справится не хуже, а ответ придёт значительно быстрее. Рабочее правило: если задачу можно решить в уме за несколько секунд — thinking не нужен; если сам бы взял листок бумаги и начал расписывать шаги — thinking оправдан. Сложность задачи, а не её субъективная важность, определяет выбор режима.

При этом thinking-режим не является универсальным решением. Длинный внутренний монолог не гарантирует правильного ответа: модель может долго и связно рассуждать — и всё равно прийти к неверному выводу, если исходные данные содержат противоречия или выходят за пределы обучающей выборки. Есть и более тонкое ограничение: thinking-монолог — это не прямая трансляция вычислений внутри нейросети, а генерируемый текст, подчиняющийся тем же законам предсказания токенов. Иногда модель пишет в монологе одно, а финальный ответ строится на другом — потому что веса сети работают параллельно с тем, что явно зафиксировано в тексте рассуждений. Монолог влияет на результат, но не контролирует его полностью. И длина рассуждения не является индикатором его качества: десять абзацев размышлений не надёжнее трёх.