Daten-Skalierungsgesetze im Imitationslernen für robotergestützte Manipulation
Data Scaling Laws in Imitation Learning for Robotic Manipulation
October 24, 2024
Autoren: Fanqi Lin, Yingdong Hu, Pingyue Sheng, Chuan Wen, Jiacheng You, Yang Gao
cs.AI
Zusammenfassung
Die Skalierung von Daten hat Felder wie die natürliche Sprachverarbeitung und Computer Vision revolutioniert, indem sie Modellen bemerkenswerte Verallgemeinerungsfähigkeiten bietet. In diesem Paper untersuchen wir, ob ähnliche Skalierungsgesetze in der Robotik existieren, insbesondere in der robotergestützten Manipulation, und ob eine angemessene Skalierung von Daten einzelne Roboterstrategien ermöglichen kann, die ohne vorheriges Training für jedes Objekt innerhalb derselben Kategorie in jeder Umgebung eingesetzt werden können. Zu diesem Zweck führen wir eine umfassende empirische Studie zur Skalierung von Daten im Imitationslernen durch. Durch die Sammlung von Daten in zahlreichen Umgebungen und mit verschiedenen Objekten untersuchen wir, wie sich die Verallgemeinerungsleistung einer Strategie mit der Anzahl der Trainingsumgebungen, Objekte und Demonstrationen ändert. Im Verlauf unserer Forschung sammeln wir über 40.000 Demonstrationen und führen mehr als 15.000 Roboterrollouts in der realen Welt gemäß einem strengen Evaluierungsprotokoll durch. Unsere Ergebnisse zeigen mehrere faszinierende Erkenntnisse: Die Verallgemeinerungsleistung der Strategie folgt einer grob potenzgesetzlichen Beziehung zur Anzahl der Umgebungen und Objekte. Die Vielfalt der Umgebungen und Objekte ist weit wichtiger als die absolute Anzahl der Demonstrationen; sobald die Anzahl der Demonstrationen pro Umgebung oder Objekt einen bestimmten Schwellenwert erreicht, haben zusätzliche Demonstrationen nur minimale Auswirkungen. Basierend auf diesen Erkenntnissen schlagen wir eine effiziente Datensammlungsstrategie vor. Mit vier Datensammlern, die einen Nachmittag lang arbeiten, sammeln wir ausreichend Daten, um die Strategien für zwei Aufgaben zu ermöglichen, die in neuen Umgebungen mit unbekannten Objekten Erfolgsraten von etwa 90% zu erzielen.
English
Data scaling has revolutionized fields like natural language processing and
computer vision, providing models with remarkable generalization capabilities.
In this paper, we investigate whether similar data scaling laws exist in
robotics, particularly in robotic manipulation, and whether appropriate data
scaling can yield single-task robot policies that can be deployed zero-shot for
any object within the same category in any environment. To this end, we conduct
a comprehensive empirical study on data scaling in imitation learning. By
collecting data across numerous environments and objects, we study how a
policy's generalization performance changes with the number of training
environments, objects, and demonstrations. Throughout our research, we collect
over 40,000 demonstrations and execute more than 15,000 real-world robot
rollouts under a rigorous evaluation protocol. Our findings reveal several
intriguing results: the generalization performance of the policy follows a
roughly power-law relationship with the number of environments and objects. The
diversity of environments and objects is far more important than the absolute
number of demonstrations; once the number of demonstrations per environment or
object reaches a certain threshold, additional demonstrations have minimal
effect. Based on these insights, we propose an efficient data collection
strategy. With four data collectors working for one afternoon, we collect
sufficient data to enable the policies for two tasks to achieve approximately
90% success rates in novel environments with unseen objects.Summary
AI-Generated Summary