Physical Intelligence, американский стартап в области робототехники, опубликовал технический отчёт о модели π0.7. В основе архитектуры — открытая языковая модель Gemma3 от Google с четырьмя миллиардами параметров и отдельный action expert на 860 миллионов параметров, который непосредственно генерирует команды для двигателей робота. Разработчики утверждают, что ключевым фактором стал не выбор архитектуры, а схема обучения.
Традиционные роботизированные модели получают на входе короткое описание задачи — например, «сложи футболку». π0.7 дополнительно снабжается инструкциями по подзадачам на естественном языке, метаданными о качестве и скорости демонстрации, метками режима управления и изображениями промежуточных целей — так называемыми subgoal images. Эти изображения генерируются в реальном времени отдельной лёгкой world-моделью. Такой подход позволяет включать в обучение данные любого качества: неудачные попытки и медленные демонстрации не выбрасываются, а помечаются соответствующими метаданными. Аблационные эксперименты в отчёте показывают: без аннотаций качества добавление новых, но слабых данных ухудшает модель; с метаданными она продолжает улучшаться даже при снижении среднего качества датасета.
Один экземпляр π0.7 сравнялся по результатам с предыдущими специализированными моделями π*0.6, дообученными методом обучения с подкреплением, на трёх задачах: складывание белья, приготовление эспрессо и сборка коробок. Перенос на другое «тело» также сработал: промышленный двурукий манипулятор UR5e сложил футболки с успехом 80%, хотя данных по складыванию именно для этого робота не собиралось. По словам PI, это соответствует нулевому результату опытных операторов-людей, впервые работающих с этим манипулятором. Новые задачи можно передавать модели через языковой коучинг: человек ведёт робота шаг за шагом словесными инструкциями, а записанные эпизоды затем используются для обучения автономной политики.
Один экземпляр модели сравнялся по качеству с узкоспециализированными предшественниками π*0.6 на задачах складывания белья, приготовления эспрессо и сборки коробок.

Центральный пример в отчёте — загрузка батата в аэрофритюрницу. Без подсказок модель не справляется; с пошаговым коучингом — справляется. Авторы интерпретируют это как свидетельство «композиционного обобщения»: модель якобы комбинирует ранее усвоенные навыки, как языковая модель собирает текст из фрагментов корпуса. Однако при ближайшем рассмотрении демонстрационного видео выясняется, что в открытом датасете DROID уже есть эпизод, где рука Franka открывает ящик аэрофритюрницы и кладёт внутрь бутылку. Структурно это очень близко к задаче с бататом. PI называет эти эпизоды «весьма отличными» от целевого сценария, но сама же признаёт в отчёте: при масштабе и разнообразии датасета невозможно с уверенностью установить, какие задачи действительно новые.
Эта дискуссия хорошо знакома исследователям LLM под названием data contamination — когда задачи из бенчмарков встречаются в обучающих данных в идентичном или очень похожем виде. Теперь тот же вопрос переходит в робототехнику. PI занимает прагматичную позицию: с практической точки зрения не важно, является ли результат «чистым» обобщением или переносом из похожих ситуаций — сама способность рекомбинировать известные блоки и есть суть композиционного обобщения. Отчёт не затрагивает тему reasoning-моделей; авторы лишь вскользь упоминают, что управляемые модели вроде π0.7 могут в будущем «обдумывать» подходы заранее. Нынешняя версия этого не делает.


