로봇 조작을 위한 모방 학습에서의 데이터 스케일링 법칙

Data Scaling Laws in Imitation Learning for Robotic Manipulation

October 24, 2024
저자: Fanqi Lin, Yingdong Hu, Pingyue Sheng, Chuan Wen, Jiacheng You, Yang Gao
cs.AI

초록

데이터 스케일링은 자연어 처리와 컴퓨터 비전과 같은 분야를 혁신적으로 변화시켰으며, 모델에 놀라운 일반화 능력을 제공했습니다. 본 논문에서는 로봇 공학, 특히 로봇 조작에서 유사한 데이터 스케일링 법칙이 존재하는지, 적절한 데이터 스케일링이 동일 범주 내의 모든 객체에 대해 제로샷으로 배포할 수 있는 단일 작업 로봇 정책을 얻을 수 있는지 조사합니다. 이를 위해, 우리는 모방 학습에서 데이터 스케일링에 대한 포괄적인 경험적 연구를 수행합니다. 다양한 환경과 객체에서 데이터를 수집함으로써, 우리는 정책의 일반화 성능이 훈련 환경, 객체 및 데모 수와 함께 어떻게 변하는지 연구합니다. 연구 과정에서 40,000건 이상의 데모를 수집하고 엄격한 평가 프로토콜에 따라 15,000건 이상의 실제 로봇 실행을 수행합니다. 우리의 연구 결과는 몇 가지 흥미로운 결과를 밝혀냅니다: 정책의 일반화 성능은 환경 및 객체 수와 대략적으로 멱법칙 관계를 따릅니다. 환경과 객체의 다양성이 절대 데모 수보다 훨씬 중요합니다. 환경 또는 객체 당 데모 수가 일정 임계값에 도달하면 추가 데모는 미미한 효과만 미칩니다. 이러한 통찰력을 바탕으로 효율적인 데이터 수집 전략을 제안합니다. 오후에 4명의 데이터 수집자가 작업하는 동안, 우리는 새로운 환경에서 보이지 않는 객체로 약 90%의 성공률을 달성할 수 있는 두 가지 작업을 위한 정책을 가능하게 하는 충분한 데이터를 수집합니다.
English
Data scaling has revolutionized fields like natural language processing and computer vision, providing models with remarkable generalization capabilities. In this paper, we investigate whether similar data scaling laws exist in robotics, particularly in robotic manipulation, and whether appropriate data scaling can yield single-task robot policies that can be deployed zero-shot for any object within the same category in any environment. To this end, we conduct a comprehensive empirical study on data scaling in imitation learning. By collecting data across numerous environments and objects, we study how a policy's generalization performance changes with the number of training environments, objects, and demonstrations. Throughout our research, we collect over 40,000 demonstrations and execute more than 15,000 real-world robot rollouts under a rigorous evaluation protocol. Our findings reveal several intriguing results: the generalization performance of the policy follows a roughly power-law relationship with the number of environments and objects. The diversity of environments and objects is far more important than the absolute number of demonstrations; once the number of demonstrations per environment or object reaches a certain threshold, additional demonstrations have minimal effect. Based on these insights, we propose an efficient data collection strategy. With four data collectors working for one afternoon, we collect sufficient data to enable the policies for two tasks to achieve approximately 90% success rates in novel environments with unseen objects.

Summary

AI-Generated Summary

PDF42November 16, 2024