Пока ИИ-лаборатории соревнуются в создании языковых моделей, у роботехники обнаружился фундаментальный дефицит: данных о физическом взаимодействии с миром почти не существует. Именно на этом разрыве строит бизнес XDOF — стартап, который вышел из стелса с раундом на $70 млн от Thrive Capital, Spark Capital, Andreessen Horowitz (a16z), Lux Capital и WndrCo.

Проблема не нова, но стала острее. LLM обучались на триллионах слов из открытого интернета. Роботу нужно совсем другое: данные о том, как рука берёт предмет, как тело удерживает равновесие, как пальцы складывают футболку. Видео с YouTube и съёмки гиг-работников дают низкое качество и плохо соотносятся с реальной физикой. Филипп Ву, сооснователь и CEO XDOF, столкнулся с этим ещё в аспирантуре UC Berkeley, где занимался обучением роботов на крупных датасетах. «Нам просто не было с чем работать, — говорит он. — Классическая проблема курицы и яйца: сначала нужно собрать данные, и только потом можно думать о том, как обучать фундаментальную модель для роботехники».

Уровень пирамидыТип данныхМетод сбора
Верхний (наиболее ценный)Данные конкретного развёртываемого роботаТелеоперация целевого робота
СреднийОбщие данные манипуляцийТелеуправляемые роботы (система GELLO)
Нижний (базовый)Эгоцентричные данные повседневных задачНосимые сенсоры собственной разработки XDOF

Вместе с будущим техническим директором Фредом Шэнту Ву разработал GELLO — недорогую систему телеоперации, позволяющую человеку управлять роботизированной рукой и тем самым генерировать обучающие данные. Работа стала заметной в академическом сообществе: похожая потребность оказалась у многих. В октябре 2024 года Ву, Шэнту и операционный директор Немо Джин основали XDOF, чтобы превратить этот подход в коммерческую инфраструктуру.

Совместно с Berkeley ИИ Research Lab стартап выпускает датасет ABC: 130 000 траекторий манипуляций, 300 часов симуляций и 100 часов оценок.

Image Credits:XDOF
Image Credits:XDOF · Источник: TechCrunch AI

Бизнес-модель строится вокруг трёхуровневой пирамиды данных. На вершине — телеоперация конкретного робота, который будет развёрнут в продакшене: самые дорогие и ценные данные. Ниже — телеуправляемые роботы, собирающие более общие данные (как раз по принципу GELLO). В основании — «эгоцентричные» данные: люди выполняют повседневные задачи, а носимые сенсоры собственной разработки XDOF фиксируют движения. Ву подчёркивает, что выбор камеры и конструкция железа напрямую влияют на качество данных: ошибки в харware-дизайне порождают систематические дефекты в датасете, которые потом сложно исправить.

Помимо сбора, компания занимается очисткой, инструментарием и разметкой данных — это принципиально для монетизации: чистый сбор данных как услуга исторически оказывается тупиковым бизнесом с низкой маржой. Самостоятельный стек инструментов создаёт самоподкрепляющийся цикл обратной связи для тех, кто обучает роботов.

В качестве стартовой точки XDOF совместно с Berkeley ИИ Research Lab выпускает датасет ABC — по заявлению компании, крупнейшую публично доступную коллекцию высококачественных данных для обучения роботов. В неё вошли 130 000 траекторий манипуляций, 300 часов симуляций и 100 часов оценочных испытаний. На этих данных команда уже обучила роботов складывать футболки, разглаживать коробки и укладывать AirPods в кейс. «Мы видели в языковых моделях, генерации изображений и других областях: когда модели и данные становятся открытыми, сообщество достигает результатов, которых никто не ожидал», — говорит Дэвид Макаллистер, аспирант Berkeley, участвовавший в подготовке релиза.

Операционная модель XDOF трудоёмка: компания планирует нанимать и обучать операторов телеуправления по всему миру. Ву объясняет, почему крупные лаборатории не делают это сами: «Нужен склад площадью в десятки тысяч квадратных метров, сотни роботов, их обслуживание, калибровка физических параметров и обучение операторов». Это капиталоёмкая операционная задача, которую лаборатории предпочитают отдавать на аутсорс — именно на этом и строится ставка XDOF. Перезапуск роботехнической программы OpenAI, закрытой в 2021 году, лишь подтверждает, что спрос на подобную инфраструктуру будет расти.