RLDG: 강화 학습을 통한 로봇 종합 정책 증류
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning
December 13, 2024
저자: Charles Xu, Qiyang Li, Jianlan Luo, Sergey Levine
cs.AI
초록
로봇 기반 모델의 최근 발전으로 다양한 작업에 적응할 수 있는 일반화 정책을 개발할 수 있게 되었습니다. 이러한 모델은 유연성을 보여주지만 성능은 주로 훈련 데이터의 품질에 의존합니다. 본 연구에서는 Reinforcement Learning Distilled Generalists (RLDG)라는 방법을 제안합니다. 이 방법은 강화 학습을 활용하여 일반화 정책을 세밀하게 조정하기 위한 고품질 훈련 데이터를 생성합니다. 커넥터 삽입 및 조립과 같은 정밀 조작 작업에 대한 광범위한 실제 세계 실험을 통해, RL 생성 데이터로 훈련된 일반화 정책이 인간의 데모로 훈련된 정책보다 일관되게 우수한 성과를 보이며, 새로운 작업에 대해 더 잘 일반화됨을 입증합니다. 또한 최적화된 행동 분포와 개선된 상태 범위로 인해 성능 향상이 나타난 것을 보여주는 자세한 분석을 제공합니다. 결과는 작업별 강화 학습과 일반화 정책 증류를 결합함으로써, 유연성을 유지하면서 전문화된 컨트롤러의 성능을 달성하는 더 능숙하고 효율적인 로봇 조작 시스템을 개발하는 유망한 접근 방식을 제시합니다. 비디오와 코드는 저희 프로젝트 웹사이트 https://generalist-distillation.github.io에서 확인할 수 있습니다.
English
Recent advances in robotic foundation models have enabled the development of
generalist policies that can adapt to diverse tasks. While these models show
impressive flexibility, their performance heavily depends on the quality of
their training data. In this work, we propose Reinforcement Learning Distilled
Generalists (RLDG), a method that leverages reinforcement learning to generate
high-quality training data for finetuning generalist policies. Through
extensive real-world experiments on precise manipulation tasks like connector
insertion and assembly, we demonstrate that generalist policies trained with
RL-generated data consistently outperform those trained with human
demonstrations, achieving up to 40% higher success rates while generalizing
better to new tasks. We also provide a detailed analysis that reveals this
performance gain stems from both optimized action distributions and improved
state coverage. Our results suggest that combining task-specific RL with
generalist policy distillation offers a promising approach for developing more
capable and efficient robotic manipulation systems that maintain the
flexibility of foundation models while achieving the performance of specialized
controllers. Videos and code can be found on our project website
https://generalist-distillation.github.io