Gegevensschaalwetten in Imitatie Leren voor Robot Manipulatie
Data Scaling Laws in Imitation Learning for Robotic Manipulation
October 24, 2024
Auteurs: Fanqi Lin, Yingdong Hu, Pingyue Sheng, Chuan Wen, Jiacheng You, Yang Gao
cs.AI
Samenvatting
Data scaling heeft revoluties teweeggebracht in vakgebieden zoals natuurlijke taalverwerking en computervisie, waarbij modellen opmerkelijke generalisatiecapaciteiten hebben gekregen. In dit artikel onderzoeken we of vergelijkbare wetten voor data scaling bestaan in de robotica, met name in robotmanipulatie, en of passende data scaling kan leiden tot robotbeleidslijnen voor enkele taken die zonder training ingezet kunnen worden voor elk object binnen dezelfde categorie in elke omgeving. Hiervoor voeren we een uitgebreide empirische studie uit naar data scaling in imitatieleren. Door gegevens te verzamelen in tal van omgevingen en met verschillende objecten, onderzoeken we hoe de generalisatieprestaties van een beleid veranderen met het aantal trainingsomgevingen, objecten en demonstraties. Gedurende ons onderzoek verzamelen we meer dan 40.000 demonstraties en voeren we meer dan 15.000 robotrollouts in de echte wereld uit onder een strikt evaluatieprotocol. Onze bevindingen tonen verschillende intrigerende resultaten: de generalisatieprestaties van het beleid volgen een ruwweg machtsverband met het aantal omgevingen en objecten. De diversiteit van omgevingen en objecten is veel belangrijker dan het absolute aantal demonstraties; zodra het aantal demonstraties per omgeving of object een bepaalde drempel bereikt, hebben extra demonstraties minimaal effect. Op basis van deze inzichten stellen we een efficiënte strategie voor gegevensverzameling voor. Met vier gegevensverzamelaars die één middag werken, verzamelen we voldoende gegevens om de beleidslijnen voor twee taken in staat te stellen om ongeveer 90% succes te behalen in nieuwe omgevingen met onbekende objecten.
English
Data scaling has revolutionized fields like natural language processing and
computer vision, providing models with remarkable generalization capabilities.
In this paper, we investigate whether similar data scaling laws exist in
robotics, particularly in robotic manipulation, and whether appropriate data
scaling can yield single-task robot policies that can be deployed zero-shot for
any object within the same category in any environment. To this end, we conduct
a comprehensive empirical study on data scaling in imitation learning. By
collecting data across numerous environments and objects, we study how a
policy's generalization performance changes with the number of training
environments, objects, and demonstrations. Throughout our research, we collect
over 40,000 demonstrations and execute more than 15,000 real-world robot
rollouts under a rigorous evaluation protocol. Our findings reveal several
intriguing results: the generalization performance of the policy follows a
roughly power-law relationship with the number of environments and objects. The
diversity of environments and objects is far more important than the absolute
number of demonstrations; once the number of demonstrations per environment or
object reaches a certain threshold, additional demonstrations have minimal
effect. Based on these insights, we propose an efficient data collection
strategy. With four data collectors working for one afternoon, we collect
sufficient data to enable the policies for two tasks to achieve approximately
90% success rates in novel environments with unseen objects.Summary
AI-Generated Summary