포도: 선호 정렬을 통한 로봇 정책 일반화
GRAPE: Generalizing Robot Policy via Preference Alignment
November 28, 2024
저자: Zijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao
cs.AI
초록
최근 로봇학 과제에서 시각-언어-행동(VLA) 모델의 발전에도 불구하고, 이러한 모델은 미처 보지 못한 과제에 대한 일반화 능력이 부족한 등 중요한 문제점을 겪고 있습니다. 이는 성공적인 실행만을 본뜬 행동 복제에 의존하기 때문입니다. 더욱이, 이러한 모델들은 주로 전문가들이 다른 환경에서 수집한 데모를 복제하기 위해 미세 조정되며, 이는 분포 편향을 도입하고 효율성, 안전성, 작업 완료 등과 같은 다양한 조작 목표에 대한 적응성을 제한합니다. 이 간극을 메우기 위해 우리는 GRAPE를 소개합니다: 일반화된 로봇 정책을 선호 정렬을 통해 구현하는 방법. 구체적으로, GRAPE는 VLAs를 궤적 수준에서 정렬하고 성공과 실패 시행으로부터 보상을 암시적으로 모델링하여 다양한 과제에 대한 일반화 능력을 향상시킵니다. 더불어, GRAPE는 복잡한 조작 과제를 독립적인 단계로 분해하고 대형 시각-언어 모델이 제안한 키포인트와 함께 맞춤형 시공간 제약을 통해 선호 모델링을 자동으로 안내합니다. 특히, 이러한 제약 조건은 유연하며 안전성, 효율성 또는 작업 성공과 같은 다양한 목표에 모델을 맞춤화할 수 있습니다. 우리는 GRAPE를 실제 환경과 시뮬레이션 환경에서 다양한 과제에 대해 평가합니다. 실험 결과는 GRAPE가 최신 VLA 모델의 성능을 향상시키며, 도메인 내 및 미처 보지 못한 조작 과제에 대한 성공률을 각각 51.79%와 60.36% 향상시킨다는 것을 보여줍니다. 게다가, GRAPE는 안전성 및 효율성과 같은 다양한 목표에 맞춰질 수 있으며, 충돌률을 44.31% 줄이고 실행 단계 길이를 11.15% 줄일 수 있습니다. 모든 코드, 모델 및 데이터는 https://grape-vla.github.io/에서 제공됩니다.
English
Despite the recent advancements of vision-language-action (VLA) models on a
variety of robotics tasks, they suffer from critical issues such as poor
generalizability to unseen tasks, due to their reliance on behavior cloning
exclusively from successful rollouts. Furthermore, they are typically
fine-tuned to replicate demonstrations collected by experts under different
settings, thus introducing distribution bias and limiting their adaptability to
diverse manipulation objectives, such as efficiency, safety, and task
completion. To bridge this gap, we introduce GRAPE: Generalizing Robot Policy
via Preference Alignment. Specifically, GRAPE aligns VLAs on a trajectory level
and implicitly models reward from both successful and failure trials to boost
generalizability to diverse tasks. Moreover, GRAPE breaks down complex
manipulation tasks to independent stages and automatically guides preference
modeling through customized spatiotemporal constraints with keypoints proposed
by a large vision-language model. Notably, these constraints are flexible and
can be customized to align the model with varying objectives, such as safety,
efficiency, or task success. We evaluate GRAPE across a diverse array of tasks
in both real-world and simulated environments. Experimental results demonstrate
that GRAPE enhances the performance of state-of-the-art VLA models, increasing
success rates on in-domain and unseen manipulation tasks by 51.79% and 60.36%,
respectively. Additionally, GRAPE can be aligned with various objectives, such
as safety and efficiency, reducing collision rates by 44.31% and rollout
step-length by 11.15%, respectively. All code, models, and data are available
at https://grape-vla.github.io/Summary
AI-Generated Summary