WildLMa: Manipolazione Loco a Lungo Termine nella Natura
WildLMa: Long Horizon Loco-Manipulation in the Wild
November 22, 2024
Autori: Ri-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang
cs.AI
Abstract
La manipolazione mobile "in-the-wild" mira a dispiegare robot in diversi ambienti reali, il che richiede che il robot (1) abbia abilità che si generalizzino tra diverse configurazioni di oggetti; (2) sia in grado di eseguire attività a lungo termine in ambienti diversi; e (3) esegua manipolazioni complesse oltre al semplice prendere-e-posizionare. I robot quadrupedi con manipolatori promettono di estendere lo spazio di lavoro e consentire una locomozione robusta, ma i risultati attuali non indagano su tale capacità. Questo articolo propone WildLMa con tre componenti per affrontare questi problemi: (1) adattamento di un controllore a basso livello appreso per la teleoperazione a tutto corpo abilitata per la realtà virtuale e la percorribilità; (2) WildLMa-Skill - una libreria di abilità visuomotorie generalizzabili acquisite tramite apprendimento per imitazione o euristici e (3) WildLMa-Planner - un'interfaccia di abilità apprese che consente ai pianificatori LLM di coordinare le abilità per attività a lungo termine. Dimostriamo l'importanza di dati di addestramento di alta qualità ottenendo un tasso di successo di presa più elevato rispetto ai baselines di RL esistenti utilizzando solo decine di dimostrazioni. WildLMa sfrutta CLIP per l'apprendimento per imitazione condizionato dal linguaggio che generalizza empiricamente a oggetti non visti nelle dimostrazioni di addestramento. Oltre a una valutazione quantitativa approfondita, dimostriamo qualitativamente applicazioni pratiche dei robot, come la pulizia dei rifiuti nei corridoi universitari o nei terreni esterni, il funzionamento di oggetti articolati e la riorganizzazione degli oggetti su una mensola.
English
`In-the-wild' mobile manipulation aims to deploy robots in diverse real-world
environments, which requires the robot to (1) have skills that generalize
across object configurations; (2) be capable of long-horizon task execution in
diverse environments; and (3) perform complex manipulation beyond
pick-and-place. Quadruped robots with manipulators hold promise for extending
the workspace and enabling robust locomotion, but existing results do not
investigate such a capability. This paper proposes WildLMa with three
components to address these issues: (1) adaptation of learned low-level
controller for VR-enabled whole-body teleoperation and traversability; (2)
WildLMa-Skill -- a library of generalizable visuomotor skills acquired via
imitation learning or heuristics and (3) WildLMa-Planner -- an interface of
learned skills that allow LLM planners to coordinate skills for long-horizon
tasks. We demonstrate the importance of high-quality training data by achieving
higher grasping success rate over existing RL baselines using only tens of
demonstrations. WildLMa exploits CLIP for language-conditioned imitation
learning that empirically generalizes to objects unseen in training
demonstrations. Besides extensive quantitative evaluation, we qualitatively
demonstrate practical robot applications, such as cleaning up trash in
university hallways or outdoor terrains, operating articulated objects, and
rearranging items on a bookshelf.Summary
AI-Generated Summary