TraceVLA: Visual Trace Prompting Migliora la Consapevolezza Spazio-Temporale per Politiche Robotiche Generaliste
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies
December 13, 2024
Autori: Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang
cs.AI
Abstract
Sebbene i grandi modelli visione-linguaggio-azione (VLA) preaddestrati su ampi insiemi di dati robotici offrano politiche generaliste promettenti per l'apprendimento robotico, faticano ancora con le dinamiche spazio-temporali nella robotica interattiva, rendendoli meno efficaci nel gestire compiti complessi, come la manipolazione. In questo lavoro, introduciamo il prompting di traccia visiva, un approccio semplice ma efficace per facilitare la consapevolezza spazio-temporale dei modelli VLA per la previsione delle azioni mediante l'encoding visivo delle traiettorie stato-azione. Sviluppiamo un nuovo modello TraceVLA mediante il raffinamento di OpenVLA sul nostro insieme di dati raccolti di 150K traiettorie di manipolazione robotica utilizzando il prompting di traccia visiva. Le valutazioni di TraceVLA su 137 configurazioni in SimplerEnv e 4 compiti su un robot fisico WidowX dimostrano prestazioni all'avanguardia, superando OpenVLA del 10% su SimplerEnv e del 3,5x sui compiti con robot reale e mostrando una generalizzazione robusta tra diverse incarnazioni e scenari. Per convalidare ulteriormente l'efficacia e la generalità del nostro metodo, presentiamo un modello VLA compatto basato su 4B Phi-3-Vision, preaddestrato su Open-X-Embodiment e raffinato sul nostro insieme di dati, che eguaglia il modello di base OpenVLA da 7B migliorando significativamente l'efficienza inferenziale.
English
Although large vision-language-action (VLA) models pretrained on extensive
robot datasets offer promising generalist policies for robotic learning, they
still struggle with spatial-temporal dynamics in interactive robotics, making
them less effective in handling complex tasks, such as manipulation. In this
work, we introduce visual trace prompting, a simple yet effective approach to
facilitate VLA models' spatial-temporal awareness for action prediction by
encoding state-action trajectories visually. We develop a new TraceVLA model by
finetuning OpenVLA on our own collected dataset of 150K robot manipulation
trajectories using visual trace prompting. Evaluations of TraceVLA across 137
configurations in SimplerEnv and 4 tasks on a physical WidowX robot demonstrate
state-of-the-art performance, outperforming OpenVLA by 10% on SimplerEnv and
3.5x on real-robot tasks and exhibiting robust generalization across diverse
embodiments and scenarios. To further validate the effectiveness and generality
of our method, we present a compact VLA model based on 4B Phi-3-Vision,
pretrained on the Open-X-Embodiment and finetuned on our dataset, rivals the 7B
OpenVLA baseline while significantly improving inference efficiency.Summary
AI-Generated Summary