Gegevensschaalwetten in Imitatie Leren voor Robot Manipulatie

Samenvatting

Data scaling heeft revoluties teweeggebracht in vakgebieden zoals natuurlijke taalverwerking en computervisie, waarbij modellen opmerkelijke generalisatiecapaciteiten hebben gekregen. In dit artikel onderzoeken we of vergelijkbare wetten voor data scaling bestaan in de robotica, met name in robotmanipulatie, en of passende data scaling kan leiden tot robotbeleidslijnen voor enkele taken die zonder training ingezet kunnen worden voor elk object binnen dezelfde categorie in elke omgeving. Hiervoor voeren we een uitgebreide empirische studie uit naar data scaling in imitatieleren. Door gegevens te verzamelen in tal van omgevingen en met verschillende objecten, onderzoeken we hoe de generalisatieprestaties van een beleid veranderen met het aantal trainingsomgevingen, objecten en demonstraties. Gedurende ons onderzoek verzamelen we meer dan 40.000 demonstraties en voeren we meer dan 15.000 robotrollouts in de echte wereld uit onder een strikt evaluatieprotocol. Onze bevindingen tonen verschillende intrigerende resultaten: de generalisatieprestaties van het beleid volgen een ruwweg machtsverband met het aantal omgevingen en objecten. De diversiteit van omgevingen en objecten is veel belangrijker dan het absolute aantal demonstraties; zodra het aantal demonstraties per omgeving of object een bepaalde drempel bereikt, hebben extra demonstraties minimaal effect. Op basis van deze inzichten stellen we een efficiënte strategie voor gegevensverzameling voor. Met vier gegevensverzamelaars die één middag werken, verzamelen we voldoende gegevens om de beleidslijnen voor twee taken in staat te stellen om ongeveer 90% succes te behalen in nieuwe omgevingen met onbekende objecten.

English

Data scaling has revolutionized fields like natural language processing and computer vision, providing models with remarkable generalization capabilities. In this paper, we investigate whether similar data scaling laws exist in robotics, particularly in robotic manipulation, and whether appropriate data scaling can yield single-task robot policies that can be deployed zero-shot for any object within the same category in any environment. To this end, we conduct a comprehensive empirical study on data scaling in imitation learning. By collecting data across numerous environments and objects, we study how a policy's generalization performance changes with the number of training environments, objects, and demonstrations. Throughout our research, we collect over 40,000 demonstrations and execute more than 15,000 real-world robot rollouts under a rigorous evaluation protocol. Our findings reveal several intriguing results: the generalization performance of the policy follows a roughly power-law relationship with the number of environments and objects. The diversity of environments and objects is far more important than the absolute number of demonstrations; once the number of demonstrations per environment or object reaches a certain threshold, additional demonstrations have minimal effect. Based on these insights, we propose an efficient data collection strategy. With four data collectors working for one afternoon, we collect sufficient data to enable the policies for two tasks to achieve approximately 90% success rates in novel environments with unseen objects.

Gegevensschaalwetten in Imitatie Leren voor Robot Manipulatie

Data Scaling Laws in Imitation Learning for Robotic Manipulation

Samenvatting

Support