ChatPaper.aiChatPaper

TraceVLA: 시각적 트레이스 프롬프팅은 일반적인 로봇 정책의 공간-시간 인식을 향상시킵니다.

TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

December 13, 2024
저자: Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang
cs.AI

초록

대규모 시각-언어-행동 (VLA) 모델은 광범위한 로봇 데이터셋에서 사전 훈련된 것들이 로봇 학습을 위한 유망한 일반화 정책을 제공하지만, 상호작용 로봋틱스의 공간-시간 역학에 여전히 어려움을 겪어 조작과 같은 복잡한 작업을 처리하는 데 효과적이지 못하다. 본 연구에서는 시각적 트레이스 프롬프팅을 소개하여, 상태-행동 궤적을 시각적으로 인코딩함으로써 VLA 모델의 공간-시간 인식을 촉진하는 간단하면서도 효과적인 방법을 제안한다. 우리는 15만 개의 로봇 조작 궤적으로 이루어진 자체 수집 데이터셋에서 시각적 트레이스 프롬프팅을 사용하여 OpenVLA를 파인튜닝하여 새로운 TraceVLA 모델을 개발했다. SimplerEnv의 137가지 구성과 물리적 WidowX 로봇의 4가지 작업을 통해 TraceVLA의 평가 결과, 최첨단의 성능을 보여주며 SimplerEnv에서 OpenVLA보다 10% 우수하며 실제 로봇 작업에서는 3.5배 우수하며 다양한 구현체와 시나리오에 걸쳐 견고한 일반화 능력을 나타낸다. 우리 방법의 효과성과 일반성을 더 검증하기 위해, Open-X-Embodiment에서 사전 훈련된 4B Phi-3-Vision을 기반으로 한 간결한 VLA 모델을 제시하고, 이를 우리 데이터셋에서 파인튜닝하여 7B OpenVLA 기준을 뛰어넘으면서 추론 효율성을 크게 향상시킨다.
English
Although large vision-language-action (VLA) models pretrained on extensive robot datasets offer promising generalist policies for robotic learning, they still struggle with spatial-temporal dynamics in interactive robotics, making them less effective in handling complex tasks, such as manipulation. In this work, we introduce visual trace prompting, a simple yet effective approach to facilitate VLA models' spatial-temporal awareness for action prediction by encoding state-action trajectories visually. We develop a new TraceVLA model by finetuning OpenVLA on our own collected dataset of 150K robot manipulation trajectories using visual trace prompting. Evaluations of TraceVLA across 137 configurations in SimplerEnv and 4 tasks on a physical WidowX robot demonstrate state-of-the-art performance, outperforming OpenVLA by 10% on SimplerEnv and 3.5x on real-robot tasks and exhibiting robust generalization across diverse embodiments and scenarios. To further validate the effectiveness and generality of our method, we present a compact VLA model based on 4B Phi-3-Vision, pretrained on the Open-X-Embodiment and finetuned on our dataset, rivals the 7B OpenVLA baseline while significantly improving inference efficiency.
PDF22December 16, 2024