Несколько месяцев назад журналист MIT Technology Review получил приглашение в приложение, которое платит криптовалютой за видео с бытовыми действиями: положить еду в миску, разогреть в микроволновке, достать. Параллельно другой сервис предлагал дистанционно управлять роботизированной рукой в Шэньчжэне, помогая ей справляться с головоломками. За этими странными предложениями стоит вполне конкретная индустриальная логика.
Роботехнические компании столкнулись с той же проблемой, что и разработчики языковых моделей несколько лет назад, — нехваткой обучающих данных. Когда в 2022 году вышел ChatGPT, стало очевидно: LLM обучаются на огромных массивах текста, и похожий подход можно применить к роботам. Только вместо слов нужны данные о движениях тела. Интернет-архива человеческих жестов не существует, поэтому компании искали обходные пути. Роботов учили в виртуальных симуляциях, но те не воспроизводят реальное поведение материалов — трение, упругость, вес предметов. Роботы, обученные в симуляторах, буквально спотыкались при переносе в реальный мир.
Решением стал сбор реальных данных — трудоёмкий, дорогой и всё более изощрённый. Ранние академические проекты выглядели скромно: лаборатории записывали часы видео, на которых люди переворачивали вафли или убирали со стола, используя камеры и ручные захваты. Данные публиковались в открытом доступе. Но когда в отрасль пришли венчурные деньги — $6,1 млрд только в гуманоидов за 2025 год — конкуренция резко обострилась. В Китае появились специализированные тренировочные центры, где операторы в экзоскелетах и VR-гарнитурах выполняют одно и то же движение — например, протирают стол — сотни раз в день. Гиг-работники из Нигерии, Аргентины и Индии снимают себя дома за бытовыми делами.
Гиг-работники из Нигерии, Аргентины и Индии снимают себя за домашними делами — данные идут на обучение роботов.

Один из наиболее показательных случаев — американская логистическая компания, оснастившая сотрудников сенсорами движения во время переноски коробок. Официальная цель — изучение производственных травм, но параллельная — сбор данных для обучения роботов, которые могут заменить этих же людей. Физические работники превращаются в поставщиков обучающих данных для собственных конкурентов.
При этом фундаментальные вопросы остаются без ответа. Неясно, достижим ли масштаб, необходимый для технического скачка: сколько тысяч видеозаписей с открыванием микроволновки нужно, чтобы робот научился готовить ужин? Какова рыночная стоимость одного такого клипа? Венчурные инвесторы ставят на то, что ответы появятся в ближайшие год-два. Пока же отрасль находится в точке, где методы сбора данных опережают понимание того, сколько этих данных реально нужно.

