UVA: Generalizzazione delle Politiche dei Robot tramite Allineamento delle Preferenze
GRAPE: Generalizing Robot Policy via Preference Alignment
November 28, 2024
Autori: Zijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao
cs.AI
Abstract
Nonostante i recenti progressi dei modelli visione-linguaggio-azione (VLA) in una varietà di compiti di robotica, essi soffrono di problemi critici come una scarsa generalizzabilità a compiti non visti, a causa della loro dipendenza esclusiva dal clonare il comportamento solo da rollout di successo. Inoltre, essi vengono tipicamente adattati per replicare dimostrazioni raccolte da esperti in contesti diversi, introducendo così un bias di distribuzione e limitando la loro adattabilità a obiettivi di manipolazione diversi, come efficienza, sicurezza e completamento del compito. Per colmare questa lacuna, presentiamo GRAPE: Generalizing Robot Policy via Preference Alignment. In particolare, GRAPE allinea i VLA a livello di traiettoria e modella implicitamente il reward sia da rollout di successo che da fallimenti per potenziare la generalizzabilità a compiti diversi. Inoltre, GRAPE suddivide compiti di manipolazione complessi in fasi indipendenti e guida automaticamente la modellazione delle preferenze attraverso vincoli spazio-temporali personalizzati con punti chiave proposti da un ampio modello visione-linguaggio. In modo significativo, questi vincoli sono flessibili e possono essere personalizzati per allineare il modello con obiettivi variabili, come sicurezza, efficienza o successo del compito. Valutiamo GRAPE su una vasta gamma di compiti sia in ambienti reali che simulati. I risultati sperimentali dimostrano che GRAPE migliora le prestazioni dei modelli VLA all'avanguardia, aumentando i tassi di successo su compiti di manipolazione in-domain e non visti rispettivamente del 51,79% e del 60,36%. Inoltre, GRAPE può essere allineato con vari obiettivi, come sicurezza ed efficienza, riducendo i tassi di collisione del 44,31% e la lunghezza del rollout del 11,15%, rispettivamente. Tutto il codice, i modelli e i dati sono disponibili su https://grape-vla.github.io/
English
Despite the recent advancements of vision-language-action (VLA) models on a
variety of robotics tasks, they suffer from critical issues such as poor
generalizability to unseen tasks, due to their reliance on behavior cloning
exclusively from successful rollouts. Furthermore, they are typically
fine-tuned to replicate demonstrations collected by experts under different
settings, thus introducing distribution bias and limiting their adaptability to
diverse manipulation objectives, such as efficiency, safety, and task
completion. To bridge this gap, we introduce GRAPE: Generalizing Robot Policy
via Preference Alignment. Specifically, GRAPE aligns VLAs on a trajectory level
and implicitly models reward from both successful and failure trials to boost
generalizability to diverse tasks. Moreover, GRAPE breaks down complex
manipulation tasks to independent stages and automatically guides preference
modeling through customized spatiotemporal constraints with keypoints proposed
by a large vision-language model. Notably, these constraints are flexible and
can be customized to align the model with varying objectives, such as safety,
efficiency, or task success. We evaluate GRAPE across a diverse array of tasks
in both real-world and simulated environments. Experimental results demonstrate
that GRAPE enhances the performance of state-of-the-art VLA models, increasing
success rates on in-domain and unseen manipulation tasks by 51.79% and 60.36%,
respectively. Additionally, GRAPE can be aligned with various objectives, such
as safety and efficiency, reducing collision rates by 44.31% and rollout
step-length by 11.15%, respectively. All code, models, and data are available
at https://grape-vla.github.io/Summary
AI-Generated Summary