Leggi di ridimensionamento dei dati nell'apprendimento per imitazione per la manipolazione robotica

Data Scaling Laws in Imitation Learning for Robotic Manipulation

October 24, 2024
Autori: Fanqi Lin, Yingdong Hu, Pingyue Sheng, Chuan Wen, Jiacheng You, Yang Gao
cs.AI

Abstract

Il ridimensionamento dei dati ha rivoluzionato campi come l'elaborazione del linguaggio naturale e la visione artificiale, fornendo modelli con notevoli capacità di generalizzazione. In questo articolo, indaghiamo se esistano leggi simili di ridimensionamento dei dati nella robotica, in particolare nella manipolazione robotica, e se un adeguato ridimensionamento dei dati possa produrre politiche robotiche monocompetenza che possano essere implementate senza addestramento per qualsiasi oggetto all'interno della stessa categoria in qualsiasi ambiente. A tal fine, conduciamo uno studio empirico esaustivo sul ridimensionamento dei dati nell'apprendimento per imitazione. Raccogliendo dati in numerosi ambienti e su oggetti diversi, studiamo come le prestazioni di generalizzazione di una politica cambiano con il numero di ambienti di addestramento, oggetti e dimostrazioni. Nel corso della nostra ricerca, raccogliamo oltre 40.000 dimostrazioni ed eseguiamo più di 15.000 esecuzioni di robot nel mondo reale in base a un rigoroso protocollo di valutazione. Le nostre scoperte rivelano diversi risultati intriganti: le prestazioni di generalizzazione della politica seguono approssimativamente una relazione di legge di potenza con il numero di ambienti e oggetti. La diversità degli ambienti e degli oggetti è molto più importante rispetto al numero assoluto di dimostrazioni; una volta che il numero di dimostrazioni per ambiente o oggetto raggiunge una certa soglia, ulteriori dimostrazioni hanno un effetto minimo. Sulla base di queste intuizioni, proponiamo una strategia efficiente di raccolta dati. Con quattro raccoglitori di dati che lavorano per un pomeriggio, raccogliamo dati sufficienti per consentire alle politiche per due compiti di raggiungere circa il 90% di successo in ambienti nuovi con oggetti non visti.
English
Data scaling has revolutionized fields like natural language processing and computer vision, providing models with remarkable generalization capabilities. In this paper, we investigate whether similar data scaling laws exist in robotics, particularly in robotic manipulation, and whether appropriate data scaling can yield single-task robot policies that can be deployed zero-shot for any object within the same category in any environment. To this end, we conduct a comprehensive empirical study on data scaling in imitation learning. By collecting data across numerous environments and objects, we study how a policy's generalization performance changes with the number of training environments, objects, and demonstrations. Throughout our research, we collect over 40,000 demonstrations and execute more than 15,000 real-world robot rollouts under a rigorous evaluation protocol. Our findings reveal several intriguing results: the generalization performance of the policy follows a roughly power-law relationship with the number of environments and objects. The diversity of environments and objects is far more important than the absolute number of demonstrations; once the number of demonstrations per environment or object reaches a certain threshold, additional demonstrations have minimal effect. Based on these insights, we propose an efficient data collection strategy. With four data collectors working for one afternoon, we collect sufficient data to enable the policies for two tasks to achieve approximately 90% success rates in novel environments with unseen objects.

Summary

AI-Generated Summary

PDF42November 16, 2024