LLMs+: что будет после ChatGPT — и почему это снова языковые модели

MIT Technology Review AI·21 апр.·2 минИсследования

С момента запуска ChatGPT в конце 2022 года прошло чуть больше двух лет, а индустрия уже ищет следующий шаг. Ответ, по версии ведущих лабораторий, — не замена LLM, а их радикальное усовершенствование.

Кратко

—Следующее поколение LLM должно самостоятельно решать задачи, на которые у человека уходят дни или недели.
—Архитектура mixture-of-experts делит модель на специализированные части и активирует только нужные — это снижает стоимость вычислений.
—Контекстное окно выросло с нескольких тысяч до миллиона токенов, но большие окна повышают риск ошибок.
—Исследователи MIT CSAIL предложили рекурсивные LLM: модель делит задачу на части и передаёт их копиям самой себя.
—DeepSeek в 2024 году показал способ кодировать текст в изображениях — это тоже сокращает вычислительные затраты.

Глоссарий · 7 терминов▾

LLM: Large Language Model — большая языковая модель, тип нейросети, обученной на огромных массивах текста и способной генерировать связные ответы на запросы пользователя.
Mixture-of-experts: Архитектурный приём, при котором модель разделена на специализированные блоки («эксперты»), и для каждого запроса активируется только часть из них — это снижает вычислительные затраты.
Трансформер: Тип нейросетевой архитектуры, лежащий в основе большинства современных языковых моделей; обрабатывает текст, оценивая взаимосвязи между всеми словами одновременно.
Диффузионная модель: Тип нейросети, которая обучается постепенно восстанавливать данные из зашумлённого состояния; широко применяется для генерации изображений и видео.
Контекстное окно: Максимальный объём текста или данных, который модель может принять и учесть за один раз — аналог рабочей памяти.
Токен: Минимальная единица текста, с которой работает языковая модель: обычно слово или его часть.
Рекурсивные LLM: Экспериментальная архитектура, при которой модель разбивает задачу на части и передаёт их копиям самой себя, обрабатывая информацию параллельно и иерархически.

ChatGPT появился как экспериментальный прототип в конце 2022 года и за несколько месяцев стал массовым инструментом для сотен миллионов людей. Технологическая отрасль перестроилась вокруг гонки языковых моделей, и теперь, когда пыль немного осела, звучит закономерный вопрос: что будет после LLM? Ответ, который дают сами исследователи, звучит парадоксально: снова LLM — но устроенные иначе.

Главная задача, которую ставят перед собой ведущие лаборатории, — научить модели самостоятельно работать над сложными многоэтапными проблемами, на решение которых у человека уходят дни или недели. Сегодняшние модели с этим справляются плохо: они теряют нить рассуждений, делают ошибки на длинных задачах и стоят дорого в эксплуатации. Чтобы двигаться дальше, нужно решить несколько технических проблем одновременно.

Первая — эффективность. Один из наиболее перспективных подходов называется mixture-of-experts: модель делится на специализированные блоки, каждый из которых отвечает за определённый тип задач, и в каждый момент времени активируется только часть из них. Это снижает вычислительную нагрузку без потери качества. Параллельно исследователи экспериментируют с заменой трансформеров — нейросетевой архитектуры, лежащей в основе почти всех современных LLM, — на диффузионные модели, которые сейчас используются преимущественно для генерации изображений и видео. Китайская компания DeepSeek в 2024 году продемонстрировала ещё один нестандартный способ: кодирование текста в изображениях, что также сокращает затраты на вычисления.

Архитектура mixture-of-experts делит модель на специализированные части и активирует только нужные — это снижает стоимость вычислений.

Вторая проблема — контекстное окно, то есть объём информации, который модель может удерживать в «рабочей памяти» за один раз. Несколько лет назад этот показатель составлял несколько тысяч токенов — грубо говоря, несколько десятков страниц текста. Современные модели обрабатывают до миллиона токенов, что сопоставимо с целой стопкой книг. Но чем длиннее контекст и сложнее задача, тем выше вероятность, что модель собьётся или «забудет» начало.

Именно эту проблему пытаются решить исследователи MIT CSAIL с помощью концепции рекурсивных LLM. Вместо того чтобы обрабатывать огромный контекст целиком, такая модель разбивает входные данные на фрагменты и передаёт каждый копии самой себя — та, в свою очередь, может снова разбить фрагмент и передать результат следующим копиям. Несколько экземпляров модели, работающих параллельно с меньшими кусками информации, показывают значительно более высокую надёжность на длинных и сложных задачах. По сути, это распределённое мышление внутри одной архитектуры.

Все эти направления объединяет одна логика: нынешние LLM упёрлись в потолок не из-за фундаментальных ограничений подхода, а из-за инженерных проблем — стоимости, надёжности и масштабируемости. Индустрия делает ставку не на смену парадигмы, а на её доработку. Насколько далеко это продвинет возможности моделей — покажут ближайшие два-три года.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме