10 направлений ИИ по версии MIT Technology Review: от роботов до открытых моделей

Подготовлено редакцией Malakhov AI

Habr AI·23 апр.·3 минРоссияКод

MIT Technology Review выделил десять направлений, которые определяют развитие ИИ в 2024–2025 годах — от архитектурных изменений в LLM до многоагентных систем и китайской ставки на открытые веса. Среди ключевых тем — сбор данных для гуманоидных роботов, «модели мира» и выход ИИ в научные исследования.

Кратко

—Компании, разрабатывающие гуманоидных роботов, переходят от симуляций к сбору данных о движениях человека в реальных условиях — с VR-оборудованием и экзоскелетами.
—Следующее поколение LLM делает ставку на снижение вычислительных затрат и надёжную работу с длинным контекстом, а не просто на увеличение размера модели.
—После выхода DeepSeek R1 китайские лаборатории — Alibaba, Moonshot, MiniMax — усилили ставку на открытые веса, снижая зависимость разработчиков от западных API.
—Многоагентные системы выходят за пределы чата: группы специализированных агентов уже применяются в разработке кода и начинают проникать в офисные и корпоративные процессы.
—«Модели мира» — системы с внутренним представлением физической среды — рассматриваются как ключевой шаг за пределы эпохи LLM для робототехники и автономных систем.

Глоссарий · 7 терминов▾

LLM: Large Language Model — большая языковая модель, нейросеть, обученная на текстах и способная генерировать связный текст, отвечать на вопросы и решать языковые задачи.
Открытые веса: Режим распространения модели, при котором публикуются её обученные параметры — это позволяет развернуть модель локально и дообучить под конкретную задачу без зависимости от API разработчика.
Трансформер: Архитектура нейросети, лежащая в основе большинства современных LLM; обрабатывает текст через механизм внимания, который позволяет учитывать связи между словами на большом расстоянии.
Контекстное окно: Объём текста, который модель способна удерживать и учитывать при генерации ответа; чем оно больше, тем длиннее документы и диалоги модель может обрабатывать за один раз.
Многоагентная система: Архитектура, в которой несколько ИИ-агентов с разными специализациями работают совместно над одной задачей, передавая друг другу промежуточные результаты.
Модель мира: Система, которая формирует внутреннее представление о физической среде и способна предсказывать последствия действий — в отличие от LLM, работающих преимущественно со статистикой текстов.
API: Application Programming Interface — интерфейс, через который разработчики обращаются к возможностям модели удалённо, не имея доступа к её весам и инфраструктуре.

Редакция MIT Technology Review регулярно отбирает направления, которые, по её оценке, определяют реальный ход развития отрасли — в противовес шуму вокруг очередных анонсов. В последнем таком обзоре десять тем разбиты на три группы: изменения внутри самой технологии, выход ИИ в реальные рабочие процессы и последствия масштабирования.

Одна из наиболее неочевидных тем — данные для гуманоидных роботов. Логика здесь прямая: текстовые LLM выросли на огромных корпусах текстов из интернета, но для обучения роботов нужны данные о том, как человек двигается и взаимодействует с физическими объектами. Такие данные нельзя просто скачать — их нужно собирать. Симуляции, которые раньше использовались как замена, плохо воспроизводят реальные свойства среды: трение, упругость, мелкие отклонения. Поэтому компании переходят к записи движений в реальных условиях — через тренировочные центры с VR-оборудованием и экзоскелетами, удалённое управление роботами, запись действий сотрудников. Этот сбор данных быстро превращается в отдельную гонку на фоне роста инвестиций в гуманоидную робототехнику. Главный открытый вопрос — можно ли вообще собрать нужный объём и превратить его в окупаемую технологию.

Параллельно идёт переосмысление самих LLM. Следующий этап — не отказ от этой архитектуры, а её переработка: снижение вычислительных затрат, более надёжная работа с длинным контекстом, эксперименты с альтернативами трансформерам. Один из подходов — модели, разбитые на специализированные части, где в каждый момент активна только нужная. Другое направление — «модели мира»: системы, которые формируют внутреннее представление о физической среде и способны предсказывать последствия действий. Языковая модель может правдоподобно описывать мир, но это не означает, что она умеет в нём ориентироваться. Именно здесь многие исследователи видят ключевой шаг после эпохи LLM — особенно применительно к робототехнике и автономным системам.

Следующее поколение LLM делает ставку на снижение вычислительных затрат и надёжную работу с длинным контекстом, а не просто на увеличение размера модели.

На геополитическом уровне MIT Technology Review фиксирует смещение баланса сил. Пока американские компании монетизируют доступ к сильным моделям через API, китайские лаборатории делают ставку на открытые веса. Выход DeepSeek R1 показал, что китайские игроки способны приближаться к уровню ведущих западных систем при меньших затратах. Вслед за DeepSeek по этому пути пошли Alibaba, Moonshot, MiniMax и Z.ai. Для разработчиков открытые модели означают более низкий порог входа: можно развернуть модель на собственной инфраструктуре, дообучить под задачу и не зависеть от внешнего провайдера. Обратная сторона — ограничения местной модерации контента и вопросы к происхождению части возможностей. Но в прикладном смысле тренд уже сложился: рынок становится менее централизованным.

Отдельный блок обзора посвящён выходу ИИ за пределы чата. Многоагентные системы — группы специализированных агентов с разными ролями — уже применяются в разработке кода и начинают проникать в офисные процессы. Один агент пишет код, другой тестирует, третий исправляет ошибки, четвёртый координирует. Авторы сравнивают потенциал такого подхода с конвейером в производстве — но указывают и на риски: при выходе в корпоративные, финансовые или медицинские инфраструктуры цена ошибок генеративных моделей резко возрастает. Схожая логика работает в науке: крупные лаборатории пытаются превратить ИИ из вспомогательного инструмента в участника исследовательского процесса — с генерацией гипотез, проектированием экспериментов и интерпретацией результатов через многоагентные связки.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

10 направлений ИИ по версии MIT Technology Review: от роботов до открытых моделей

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США