Naar een Synergetisch, Gegeneraliseerd en Efficiënt Dubbel Systeem voor Robot Manipulatie
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
October 10, 2024
Auteurs: Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao
cs.AI
Samenvatting
De toenemende vraag naar veelzijdige robotische systemen om te opereren in diverse en dynamische omgevingen heeft het belang benadrukt van een generalistisch beleid, dat gebruikmaakt van een groot corpus aan data over verschillende lichamen om brede aanpasbaarheid en hoog niveau van redeneren te vergemakkelijken. Echter, de generalist zou moeite hebben met inefficiënte inferentie en kostbare training. Het specialistische beleid daarentegen is samengesteld voor specifieke domeingegevens en blinkt uit in precisie op taakniveau met efficiëntie. Toch ontbreekt het aan generalisatiecapaciteit voor een breed scala aan toepassingen. Geïnspireerd door deze observaties introduceren we RoboDual, een synergetisch dual-systeem dat de voordelen van zowel het generalistische als het specialistische beleid aanvult. Een specialist op basis van een diffusietransformator is ontworpen voor multi-stap actie-uitvoeringen, voortreffelijk geconditioneerd op het begrip van de taak op hoog niveau en de gedesintegreerde actie-uitvoer van een visie-taal-actie (VLA) gebaseerde generalist. In vergelijking met OpenVLA behaalt RoboDual een verbetering van 26,7% in een real-world setting en een winst van 12% op CALVIN door een specialistisch beleid te introduceren met slechts 20M trainbare parameters. Het behoudt sterke prestaties met slechts 5% van de demonstratiedata en maakt een 3,8 keer hogere controlefrequentie mogelijk bij implementatie in de echte wereld. De code zal openbaar beschikbaar worden gesteld. Onze projectpagina is te vinden op: https://opendrivelab.com/RoboDual/
English
The increasing demand for versatile robotic systems to operate in diverse and
dynamic environments has emphasized the importance of a generalist policy,
which leverages a large cross-embodiment data corpus to facilitate broad
adaptability and high-level reasoning. However, the generalist would struggle
with inefficient inference and cost-expensive training. The specialist policy,
instead, is curated for specific domain data and excels at task-level precision
with efficiency. Yet, it lacks the generalization capacity for a wide range of
applications. Inspired by these observations, we introduce RoboDual, a
synergistic dual-system that supplements the merits of both generalist and
specialist policy. A diffusion transformer-based specialist is devised for
multi-step action rollouts, exquisitely conditioned on the high-level task
understanding and discretized action output of a vision-language-action (VLA)
based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in
real-world setting and 12% gain on CALVIN by introducing a specialist policy
with merely 20M trainable parameters. It maintains strong performance with 5%
of demonstration data only, and enables a 3.8 times higher control frequency in
real-world deployment. Code would be made publicly available. Our project page
is hosted at: https://opendrivelab.com/RoboDual/Summary
AI-Generated Summary