로봇 조작을 위한 상호 작용적이고 일반화된 효율적인 이중 시스템으로 나아가기
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
October 10, 2024
저자: Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao
cs.AI
초록
다양하고 동적인 환경에서 운영되는 다목적 로봇 시스템에 대한 수요의 증가는 대체로 크로스 에모디먼트 데이터 코퍼스를 활용하여 넓은 적응성과 고수준 추론을 용이하게 하는 일반주의 정책의 중요성을 강조했습니다. 그러나 일반주의자는 비효율적 추론과 비용 소모적인 훈련에 어려움을 겪을 것입니다. 특화 정책은 특정 도메인 데이터를 위해 선별되어 작성되었으며 작업 수준의 정밀성과 효율성에서 뛰어납니다. 그러나 넓은 응용 범위에 대한 일반화 능력이 부족합니다. 이러한 관찰을 바탕으로 우리는 일반주의자와 특화 정책의 장점을 보완하는 상호 작용적 이중 시스템인 RoboDual을 소개합니다. 확산 트랜스포머 기반의 특화 정책은 다단계 액션 롤아웃을 위해 설계되었으며, 고수준 작업 이해와 시각-언어-액션(VLA) 기반의 이산화된 액션 출력에 민감하게 조건화됩니다. OpenVLA와 비교하여 RoboDual은 특화 정책을 도입함으로써 실제 환경에서 26.7%의 성능 향상과 CALVIN에서 12%의 이득을 얻습니다. 이는 단지 20M 개의 훈련 가능한 매개변수로 달성됩니다. RoboDual은 데모 데이터의 5%만 사용하여 강력한 성능을 유지하며, 실제 환경 배치에서 3.8배 더 높은 제어 주파수를 가능하게 합니다. 코드는 공개적으로 제공될 예정입니다. 저희 프로젝트 페이지는 다음에서 호스팅됩니다: https://opendrivelab.com/RoboDual/
English
The increasing demand for versatile robotic systems to operate in diverse and
dynamic environments has emphasized the importance of a generalist policy,
which leverages a large cross-embodiment data corpus to facilitate broad
adaptability and high-level reasoning. However, the generalist would struggle
with inefficient inference and cost-expensive training. The specialist policy,
instead, is curated for specific domain data and excels at task-level precision
with efficiency. Yet, it lacks the generalization capacity for a wide range of
applications. Inspired by these observations, we introduce RoboDual, a
synergistic dual-system that supplements the merits of both generalist and
specialist policy. A diffusion transformer-based specialist is devised for
multi-step action rollouts, exquisitely conditioned on the high-level task
understanding and discretized action output of a vision-language-action (VLA)
based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in
real-world setting and 12% gain on CALVIN by introducing a specialist policy
with merely 20M trainable parameters. It maintains strong performance with 5%
of demonstration data only, and enables a 3.8 times higher control frequency in
real-world deployment. Code would be made publicly available. Our project page
is hosted at: https://opendrivelab.com/RoboDual/Summary
AI-Generated Summary