Компания X Square Robot открыла проект XRZero-G0 — аппаратно-программный фреймворк для сбора обучающих демонстраций, генерации политик управления и проверки их на реальных роботах. Проект ориентирован на одну из главных проблем embodied AI: дорогой и медленный сбор качественных данных с помощью физических роботов. Вместо постоянной телеметрии с реального оборудования XRZero-G0 использует демонстрации, записанные человеком через VR-интерфейс и набор камер, после чего эти данные применяются для обучения роботов.
В техническом отчёте XRZero-G0 авторы описывают систему как совместно спроектированную аппаратно-программную платформу для «robot-free» сбора данных и обучения политик управления. По их данным, сочетание большого массива человеко-записанных демонстраций с небольшим объёмом данных от реального робота позволяет получить качество, сопоставимое с датасетами, собранными только на физических роботах. В экспериментах упоминается соотношение около 10 человеко-записанных эпизодов на 1 эпизод реального робота, что снижает стоимость сбора данных примерно в 20 раз.
По описанию Help Net Security, вместе с XRZero-G0 опубликован G0-Dataset — мультимодальный набор данных, собранный с помощью этого фреймворка. Он включает более 2000 часов проверенных демонстраций, охватывает зрительные, тактильные и аудиомодальности, а также содержит около 3000 различных задач манипуляции — от базовых действий до более тонких семантических сценариев. Часть набора данных доступна на Hugging Face как XRZero-G0-3K.
Система интересна тем, что пытается сделать сбор робототехнических данных похожим не на ручное управление конкретной дорогой машиной, а на масштабируемый производственный процесс: оператор записывает действия в удобной среде, данные проходят контроль качества, затем используются для обучения политики, а результат проверяется на физическом роботе. Такой подход может быть полезен для исследований в области универсальных роботов, dexterous manipulation и переноса навыков между разными робототехническими платформами.
Возможности XRZero-G0
-
Сбор данных без физического робота. Демонстрации записываются человеком через VR-интерфейс и специализированные захваты, что снижает зависимость от дорогих часов работы реального робота. Такой подход позволяет быстрее накапливать большой объём примеров для обучения.
-
Мультимодальная запись демонстраций. XRZero-G0 использует несколько камер, включая обзорную камеру и камеры на уровне «запястий», чтобы приблизить человеческую демонстрацию к тому, как задачу видит робот при реальном выполнении. В опубликованном G0-Dataset также заявлены зрительные, тактильные и аудиоданные.
-
Эргономичный VR-интерфейс. Оператор работает не с промышленным роботом напрямую, а с более удобной VR-средой и сменными захватами. Это должно повысить скорость и повторяемость сбора демонстраций.
-
Замкнутый цикл контроля качества. Данные проходят цепочку «сбор → проверка → обучение → оценка». На уровне наблюдений проверяется согласованность данных с разных камер, на уровне кинематики отбрасываются некорректные траектории, а финальной проверкой становится воспроизведение политики на физическом роботе.
-
Проверка пригодности данных. Авторы заявляют эффективную долю валидных данных около 85% в контролируемых условиях. Это важно, потому что в робототехнике плохо согласованные или физически невыполнимые демонстрации могут ухудшать обучение не меньше, чем нехватка данных.
-
Data Mixing Laws. В проекте исследуется, как смешивать данные, собранные без робота, с небольшим объёмом данных реального робота. Практический вывод авторов: небольшая доля реальных эпизодов помогает учесть физические факторы вроде задержек, трения и особенностей приводов, а основную вариативность можно получить из более дешёвых человеко-записанных демонстраций.
-
Zero-shot cross-embodiment transfer. XRZero-G0 нацелен на перенос навыков между разными роботами без отдельной тонкой настройки под каждую платформу. В отчёте заявлен перенос на целевого физического робота без дополнительного platform-specific fine-tuning.
-
G0-Dataset для исследований. Опубликованный набор данных даёт исследователям готовую базу для обучения и проверки моделей манипуляции. Он покрывает тысячи задач и рассчитан на эксперименты с предобучением, переносом между embodiment-платформами и масштабированием робототехнических политик.
-
Открытая публикация кода и данных. Репозиторий XRZero-G0 размещён на GitHub, а выборка XRZero-G0-3K доступна через Hugging Face. По данным Help Net Security, код опубликован под лицензией MIT.
>>> Источник



