ChatGPT появился как экспериментальный прототип в конце 2022 года и за несколько месяцев стал массовым инструментом для сотен миллионов людей. Технологическая отрасль перестроилась вокруг гонки языковых моделей, и теперь, когда пыль немного осела, звучит закономерный вопрос: что будет после LLM? Ответ, который дают сами исследователи, звучит парадоксально: снова LLM — но устроенные иначе.

Главная задача, которую ставят перед собой ведущие лаборатории, — научить модели самостоятельно работать над сложными многоэтапными проблемами, на решение которых у человека уходят дни или недели. Сегодняшние модели с этим справляются плохо: они теряют нить рассуждений, делают ошибки на длинных задачах и стоят дорого в эксплуатации. Чтобы двигаться дальше, нужно решить несколько технических проблем одновременно.

Первая — эффективность. Один из наиболее перспективных подходов называется mixture-of-experts: модель делится на специализированные блоки, каждый из которых отвечает за определённый тип задач, и в каждый момент времени активируется только часть из них. Это снижает вычислительную нагрузку без потери качества. Параллельно исследователи экспериментируют с заменой трансформеров — нейросетевой архитектуры, лежащей в основе почти всех современных LLM, — на диффузионные модели, которые сейчас используются преимущественно для генерации изображений и видео. Китайская компания DeepSeek в 2024 году продемонстрировала ещё один нестандартный способ: кодирование текста в изображениях, что также сокращает затраты на вычисления.

Архитектура mixture-of-experts делит модель на специализированные части и активирует только нужные — это снижает стоимость вычислений.

LLMs+: что будет после ChatGPT — и почему это снова языковые модели
· Источник: MIT Technology Review AI

Вторая проблема — контекстное окно, то есть объём информации, который модель может удерживать в «рабочей памяти» за один раз. Несколько лет назад этот показатель составлял несколько тысяч токенов — грубо говоря, несколько десятков страниц текста. Современные модели обрабатывают до миллиона токенов, что сопоставимо с целой стопкой книг. Но чем длиннее контекст и сложнее задача, тем выше вероятность, что модель собьётся или «забудет» начало.

Именно эту проблему пытаются решить исследователи MIT CSAIL с помощью концепции рекурсивных LLM. Вместо того чтобы обрабатывать огромный контекст целиком, такая модель разбивает входные данные на фрагменты и передаёт каждый копии самой себя — та, в свою очередь, может снова разбить фрагмент и передать результат следующим копиям. Несколько экземпляров модели, работающих параллельно с меньшими кусками информации, показывают значительно более высокую надёжность на длинных и сложных задачах. По сути, это распределённое мышление внутри одной архитектуры.

Все эти направления объединяет одна логика: нынешние LLM упёрлись в потолок не из-за фундаментальных ограничений подхода, а из-за инженерных проблем — стоимости, надёжности и масштабируемости. Индустрия делает ставку не на смену парадигмы, а на её доработку. Насколько далеко это продвинет возможности моделей — покажут ближайшие два-три года.