인간-인-루프 강화 학습을 통한 정밀하고 민첩한 로봇 조작

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

October 29, 2024
저자: Jianlan Luo, Charles Xu, Jeffrey Wu, Sergey Levine
cs.AI

초록

강화 학습 (RL)은 복잡한 로봇 조작 기술의 자율적 습득을 가능하게 하는 데 큰 잠재력을 가지고 있지만, 실제 세계 환경에서 이 잠재력을 실현하는 것은 어려웠습니다. 우리는 다이내믹 조작, 정밀 조립, 이중 팔 조정을 포함한 다양한 민첩한 조작 작업에 대해 인상적인 성능을 보여주는 인간-인-루프 비전 기반 강화 학습 시스템을 제시합니다. 우리의 접근 방식은 데모 및 인간의 수정, 효율적인 강화 학습 알고리즘, 그리고 다른 시스템 수준의 설계 선택을 통합하여, 단 1에서 2.5시간의 훈련으로 거의 완벽한 성공률과 빠른 주기 시간을 달성하는 정책을 학습합니다. 우리의 방법이 모방 학습 기준선 및 이전 강화 학습 접근 방식을 현저히 능가함을 보여주며, 성공률에서 평균 2배 향상과 실행 속도에서 1.8배 빠른 것을 입증합니다. 광범위한 실험과 분석을 통해, 우리의 방법이 반응 및 예측 제어 전략에 대해 견고하고 적응적인 정책을 학습하는 방법에 대한 효과를 제시하고 있습니다. 우리의 결과는 강화 학습이 실제 세계에서 실용적인 훈련 시간 내에 직접 다양한 복잡한 비전 기반 조작 정책을 학습할 수 있다는 것을 시사합니다. 이 연구가 산업 응용 및 연구 발전에 이바지하는 새로운 세대의 학습된 로봇 조작 기술을 영감을 주기를 희망합니다. 비디오 및 코드는 저희 프로젝트 웹사이트 https://hil-serl.github.io/에서 확인할 수 있습니다.
English
Reinforcement learning (RL) holds great promise for enabling autonomous acquisition of complex robotic manipulation skills, but realizing this potential in real-world settings has been challenging. We present a human-in-the-loop vision-based RL system that demonstrates impressive performance on a diverse set of dexterous manipulation tasks, including dynamic manipulation, precision assembly, and dual-arm coordination. Our approach integrates demonstrations and human corrections, efficient RL algorithms, and other system-level design choices to learn policies that achieve near-perfect success rates and fast cycle times within just 1 to 2.5 hours of training. We show that our method significantly outperforms imitation learning baselines and prior RL approaches, with an average 2x improvement in success rate and 1.8x faster execution. Through extensive experiments and analysis, we provide insights into the effectiveness of our approach, demonstrating how it learns robust, adaptive policies for both reactive and predictive control strategies. Our results suggest that RL can indeed learn a wide range of complex vision-based manipulation policies directly in the real world within practical training times. We hope this work will inspire a new generation of learned robotic manipulation techniques, benefiting both industrial applications and research advancements. Videos and code are available at our project website https://hil-serl.github.io/.

Summary

AI-Generated Summary

PDF112November 16, 2024