CARP: Apprendimento della politica visuomotoria tramite previsione autoregressiva grossolana-fine.

Abstract

Nell'apprendimento delle politiche visuomotorie robotiche, i modelli basati sulla diffusione hanno ottenuto un notevole successo nel migliorare l'accuratezza della generazione della traiettoria dell'azione rispetto ai modelli autoregressivi tradizionali. Tuttavia, essi soffrono di inefficienza a causa di molteplici passaggi di denoising e di limitata flessibilità dovuta a vincoli complessi. In questo articolo, presentiamo Coarse-to-Fine AutoRegressive Policy (CARP), un nuovo paradigma per l'apprendimento delle politiche visuomotorie che ridefinisce il processo di generazione dell'azione autoregressiva come un approccio a scale successive da grossolano a fine. CARP scompone la generazione dell'azione in due fasi: prima, un autoencoder dell'azione apprende rappresentazioni multiscala dell'intera sequenza di azioni; poi, un trasformatore in stile GPT affina la previsione della sequenza attraverso un processo autoregressivo da grossolano a fine. Questo approccio diretto e intuitivo produce azioni altamente accurate e fluide, eguagliando o addirittura superando le prestazioni delle politiche basate sulla diffusione mantenendo un'efficienza paragonabile alle politiche autoregressive. Conduciamo valutazioni approfondite in diversi contesti, inclusi scenari single-task e multi-task su benchmark di simulazione basati su stato e immagine, nonché compiti reali. CARP raggiunge tassi di successo competitivi, con un miglioramento fino al 10%, e offre un'infrazione 10 volte più veloce rispetto alle politiche all'avanguardia, stabilendo un paradigma ad alte prestazioni, efficiente e flessibile per la generazione di azioni nei compiti robotici.

English

In robotic visuomotor policy learning, diffusion-based models have achieved significant success in improving the accuracy of action trajectory generation compared to traditional autoregressive models. However, they suffer from inefficiency due to multiple denoising steps and limited flexibility from complex constraints. In this paper, we introduce Coarse-to-Fine AutoRegressive Policy (CARP), a novel paradigm for visuomotor policy learning that redefines the autoregressive action generation process as a coarse-to-fine, next-scale approach. CARP decouples action generation into two stages: first, an action autoencoder learns multi-scale representations of the entire action sequence; then, a GPT-style transformer refines the sequence prediction through a coarse-to-fine autoregressive process. This straightforward and intuitive approach produces highly accurate and smooth actions, matching or even surpassing the performance of diffusion-based policies while maintaining efficiency on par with autoregressive policies. We conduct extensive evaluations across diverse settings, including single-task and multi-task scenarios on state-based and image-based simulation benchmarks, as well as real-world tasks. CARP achieves competitive success rates, with up to a 10% improvement, and delivers 10x faster inference compared to state-of-the-art policies, establishing a high-performance, efficient, and flexible paradigm for action generation in robotic tasks.

CARP: Apprendimento della politica visuomotoria tramite previsione autoregressiva grossolana-fine.

CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction

Abstract

Support