Physical Intelligence выпустила робомодель π0.7 с обобщением как у языковых моделей

The Decoder·17 апр.·3 минИсследованияИндустрия

Стартап Physical Intelligence представил π0.7 — роботизированную foundation-модель на базе четырёхмиллиардного Gemma3 от Google, которая переиспользует навыки из обучающих данных по принципу, схожему с тем, как LLM собирают текст из фрагментов корпуса. Разработчики называют это ранними признаками «композиционного обобщения» в робототехнике.

Кратко

—π0.7 построена на open-source модели Gemma3 (4 млрд параметров) и дополнена action expert на 860 млн параметров для генерации движений.
—Один экземпляр модели сравнялся по качеству с узкоспециализированными предшественниками π*0.6 на задачах складывания белья, приготовления эспрессо и сборки коробок.
—Манипулятор UR5e сложил футболки с успехом 80% без единого примера складывания в своих обучающих данных — результат сопоставим с нулевым показателем опытных операторов-людей.
—Обучение через языковой коучинг позволяет обучать робота новым задачам пошаговыми инструкциями без традиционной телеоперации.
—Авторы признают: при масштабе датасета невозможно точно определить, решает ли модель задачу через обобщение или воспроизводит близкие примеры из обучения.

Видео по теме

Видео по теме · Источник: The Decoder

Глоссарий · 7 терминов▾

Foundation-модель: Крупная модель, обученная на широком наборе данных и способная адаптироваться к разным задачам без полного переобучения.
Композиционное обобщение: Способность модели решать новые задачи, комбинируя ранее усвоенные навыки или фрагменты знаний, а не заучивая каждую задачу отдельно.
World-модель: Вспомогательная нейросеть, которая предсказывает, как будет выглядеть окружающий мир после выполнения того или иного действия.
Subgoal image: Изображение промежуточного результата, которое показывает роботу, как должна выглядеть среда после завершения очередного подшага задачи.
Cross-embodiment transfer: Перенос навыков, обученных на одном типе робота, на другой — с иной конструкцией или степенями свободы.
Загрязнение данных (data contamination): Ситуация, когда задачи из тестового набора встречаются в обучающих данных в идентичном или очень похожем виде, что завышает оценку реальных способностей модели.
Обучение с подкреплением (RL): Метод обучения, при котором модель улучшает поведение, получая сигнал вознаграждения за успешные действия и штраф за ошибки.

Physical Intelligence, американский стартап в области робототехники, опубликовал технический отчёт о модели π0.7. В основе архитектуры — открытая языковая модель Gemma3 от Google с четырьмя миллиардами параметров и отдельный action expert на 860 миллионов параметров, который непосредственно генерирует команды для двигателей робота. Разработчики утверждают, что ключевым фактором стал не выбор архитектуры, а схема обучения.

Традиционные роботизированные модели получают на входе короткое описание задачи — например, «сложи футболку». π0.7 дополнительно снабжается инструкциями по подзадачам на естественном языке, метаданными о качестве и скорости демонстрации, метками режима управления и изображениями промежуточных целей — так называемыми subgoal images. Эти изображения генерируются в реальном времени отдельной лёгкой world-моделью. Такой подход позволяет включать в обучение данные любого качества: неудачные попытки и медленные демонстрации не выбрасываются, а помечаются соответствующими метаданными. Аблационные эксперименты в отчёте показывают: без аннотаций качества добавление новых, но слабых данных ухудшает модель; с метаданными она продолжает улучшаться даже при снижении среднего качества датасета.

Один экземпляр π0.7 сравнялся по результатам с предыдущими специализированными моделями π*0.6, дообученными методом обучения с подкреплением, на трёх задачах: складывание белья, приготовление эспрессо и сборка коробок. Перенос на другое «тело» также сработал: промышленный двурукий манипулятор UR5e сложил футболки с успехом 80%, хотя данных по складыванию именно для этого робота не собиралось. По словам PI, это соответствует нулевому результату опытных операторов-людей, впервые работающих с этим манипулятором. Новые задачи можно передавать модели через языковой коучинг: человек ведёт робота шаг за шагом словесными инструкциями, а записанные эпизоды затем используются для обучения автономной политики.

Один экземпляр модели сравнялся по качеству с узкоспециализированными предшественниками π*0.6 на задачах складывания белья, приготовления эспрессо и сборки коробок.

Image description · Источник: The Decoder

Центральный пример в отчёте — загрузка батата в аэрофритюрницу. Без подсказок модель не справляется; с пошаговым коучингом — справляется. Авторы интерпретируют это как свидетельство «композиционного обобщения»: модель якобы комбинирует ранее усвоенные навыки, как языковая модель собирает текст из фрагментов корпуса. Однако при ближайшем рассмотрении демонстрационного видео выясняется, что в открытом датасете DROID уже есть эпизод, где рука Franka открывает ящик аэрофритюрницы и кладёт внутрь бутылку. Структурно это очень близко к задаче с бататом. PI называет эти эпизоды «весьма отличными» от целевого сценария, но сама же признаёт в отчёте: при масштабе и разнообразии датасета невозможно с уверенностью установить, какие задачи действительно новые.

Эта дискуссия хорошо знакома исследователям LLM под названием data contamination — когда задачи из бенчмарков встречаются в обучающих данных в идентичном или очень похожем виде. Теперь тот же вопрос переходит в робототехнику. PI занимает прагматичную позицию: с практической точки зрения не важно, является ли результат «чистым» обобщением или переносом из похожих ситуаций — сама способность рекомбинировать известные блоки и есть суть композиционного обобщения. Отчёт не затрагивает тему reasoning-моделей; авторы лишь вскользь упоминают, что управляемые модели вроде π0.7 могут в будущем «обдумывать» подходы заранее. Нынешняя версия этого не делает.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме