RLDG: Distillazione della politica generalista robotica tramite apprendimento per rinforzo
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning
December 13, 2024
Autori: Charles Xu, Qiyang Li, Jianlan Luo, Sergey Levine
cs.AI
Abstract
I recenti progressi nei modelli fondamentali dei robot hanno permesso lo sviluppo di politiche generaliste in grado di adattarsi a compiti diversi. Sebbene questi modelli mostrino una flessibilità impressionante, le loro prestazioni dipendono fortemente dalla qualità dei dati di addestramento. In questo lavoro, proponiamo i Generalisti Distillati con Apprendimento per Rinforzo (RLDG), un metodo che sfrutta l'apprendimento per rinforzo per generare dati di addestramento di alta qualità per il perfezionamento delle politiche generaliste. Attraverso estesi esperimenti del mondo reale su compiti di manipolazione precisa come l'inserimento di connettori e l'assemblaggio, dimostriamo che le politiche generaliste addestrate con dati generati da RL superano costantemente quelle addestrate con dimostrazioni umane, raggiungendo tassi di successo fino al 40% più alti e generalizzando meglio a nuovi compiti. Forniamo anche un'analisi dettagliata che rivela che questo aumento delle prestazioni deriva sia dalle distribuzioni di azioni ottimizzate che dalla copertura degli stati migliorata. I nostri risultati suggeriscono che combinare l'RL specifico del compito con la distillazione della politica generalista offre un approccio promettente per lo sviluppo di sistemi di manipolazione robotica più capaci ed efficienti che mantengono la flessibilità dei modelli fondamentali pur raggiungendo le prestazioni dei controller specializzati. I video e il codice sono disponibili sul nostro sito web del progetto https://generalist-distillation.github.io
English
Recent advances in robotic foundation models have enabled the development of
generalist policies that can adapt to diverse tasks. While these models show
impressive flexibility, their performance heavily depends on the quality of
their training data. In this work, we propose Reinforcement Learning Distilled
Generalists (RLDG), a method that leverages reinforcement learning to generate
high-quality training data for finetuning generalist policies. Through
extensive real-world experiments on precise manipulation tasks like connector
insertion and assembly, we demonstrate that generalist policies trained with
RL-generated data consistently outperform those trained with human
demonstrations, achieving up to 40% higher success rates while generalizing
better to new tasks. We also provide a detailed analysis that reveals this
performance gain stems from both optimized action distributions and improved
state coverage. Our results suggest that combining task-specific RL with
generalist policy distillation offers a promising approach for developing more
capable and efficient robotic manipulation systems that maintain the
flexibility of foundation models while achieving the performance of specialized
controllers. Videos and code can be found on our project website
https://generalist-distillation.github.ioSummary
AI-Generated Summary