CARP: Apprendimento della politica visuomotoria tramite previsione autoregressiva grossolana-fine.
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction
December 9, 2024
Autori: Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang
cs.AI
Abstract
Nell'apprendimento delle politiche visuomotorie robotiche, i modelli basati sulla diffusione hanno ottenuto un notevole successo nel migliorare l'accuratezza della generazione della traiettoria dell'azione rispetto ai modelli autoregressivi tradizionali. Tuttavia, essi soffrono di inefficienza a causa di molteplici passaggi di denoising e di limitata flessibilità dovuta a vincoli complessi. In questo articolo, presentiamo Coarse-to-Fine AutoRegressive Policy (CARP), un nuovo paradigma per l'apprendimento delle politiche visuomotorie che ridefinisce il processo di generazione dell'azione autoregressiva come un approccio a scale successive da grossolano a fine. CARP scompone la generazione dell'azione in due fasi: prima, un autoencoder dell'azione apprende rappresentazioni multiscala dell'intera sequenza di azioni; poi, un trasformatore in stile GPT affina la previsione della sequenza attraverso un processo autoregressivo da grossolano a fine. Questo approccio diretto e intuitivo produce azioni altamente accurate e fluide, eguagliando o addirittura superando le prestazioni delle politiche basate sulla diffusione mantenendo un'efficienza paragonabile alle politiche autoregressive. Conduciamo valutazioni approfondite in diversi contesti, inclusi scenari single-task e multi-task su benchmark di simulazione basati su stato e immagine, nonché compiti reali. CARP raggiunge tassi di successo competitivi, con un miglioramento fino al 10%, e offre un'infrazione 10 volte più veloce rispetto alle politiche all'avanguardia, stabilendo un paradigma ad alte prestazioni, efficiente e flessibile per la generazione di azioni nei compiti robotici.
English
In robotic visuomotor policy learning, diffusion-based models have achieved
significant success in improving the accuracy of action trajectory generation
compared to traditional autoregressive models. However, they suffer from
inefficiency due to multiple denoising steps and limited flexibility from
complex constraints. In this paper, we introduce Coarse-to-Fine AutoRegressive
Policy (CARP), a novel paradigm for visuomotor policy learning that redefines
the autoregressive action generation process as a coarse-to-fine, next-scale
approach. CARP decouples action generation into two stages: first, an action
autoencoder learns multi-scale representations of the entire action sequence;
then, a GPT-style transformer refines the sequence prediction through a
coarse-to-fine autoregressive process. This straightforward and intuitive
approach produces highly accurate and smooth actions, matching or even
surpassing the performance of diffusion-based policies while maintaining
efficiency on par with autoregressive policies. We conduct extensive
evaluations across diverse settings, including single-task and multi-task
scenarios on state-based and image-based simulation benchmarks, as well as
real-world tasks. CARP achieves competitive success rates, with up to a 10%
improvement, and delivers 10x faster inference compared to state-of-the-art
policies, establishing a high-performance, efficient, and flexible paradigm for
action generation in robotic tasks.Summary
AI-Generated Summary