빠른 속도: 시각-언어-행동 모델을 위한 효율적인 행동 토큰화
FAST: Efficient Action Tokenization for Vision-Language-Action Models
January 16, 2025
저자: Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine
cs.AI
초록
자가회귀 시퀀스 모델인 Transformer 기반의 시각-언어-행동 (VLA) 정책은 복잡하고 일반화된 로봇 행동을 포착하는 데 매우 효과적일 수 있습니다. 그러나 이러한 모델은 연속적인 행동 신호의 토큰화를 선택해야 합니다. 이는 모델이 예측하는 이산적인 기호가 연속적인 로봇 행동으로 어떻게 매핑되는지를 결정합니다. 우리는 현재 로봇 행동 토큰화에 대한 접근 방식이 높은 주파수의 로봇 데이터로부터 민첩한 기술을 학습할 때 일반적으로 성능이 나쁘다는 것을 발견했습니다. 이 문제를 해결하기 위해 우리는 이산 코사인 변환을 기반으로 한 새로운 압축 기반 토큰화 방식을 제안합니다. 우리의 토큰화 접근 방식인 주파수-공간 행동 시퀀스 토큰화 (FAST)는 표준 이산화 방법이 완전히 실패하는 민첩하고 고주파 작업에 대한 자가회귀 VLA를 학습할 수 있게 합니다. FAST에 기반하여, 우리는 1백만 개의 실제 로봇 행동 궤적으로 훈련된 범용 로봇 행동 토크나이저인 FAST+를 공개합니다. 다양한 행동 공간과 제어 주파수를 갖는 로봇 행동 시퀀스에 대한 블랙박스 토크나이저로 사용할 수 있습니다. 마지막으로, pi0 VLA와 결합했을 때, 우리의 방법은 1만 시간의 로봇 데이터로 훈련할 수 있으며 확산 VLA의 성능과 일치시킬 수 있으면서 최대 5배까지 훈련 시간을 줄일 수 있음을 보여줍니다.
English
Autoregressive sequence models, such as Transformer-based vision-language
action (VLA) policies, can be tremendously effective for capturing complex and
generalizable robotic behaviors. However, such models require us to choose a
tokenization of our continuous action signals, which determines how the
discrete symbols predicted by the model map to continuous robot actions. We
find that current approaches for robot action tokenization, based on simple
per-dimension, per-timestep binning schemes, typically perform poorly when
learning dexterous skills from high-frequency robot data. To address this
challenge, we propose a new compression-based tokenization scheme for robot
actions, based on the discrete cosine transform. Our tokenization approach,
Frequency-space Action Sequence Tokenization (FAST), enables us to train
autoregressive VLAs for highly dexterous and high-frequency tasks where
standard discretization methods fail completely. Based on FAST, we release
FAST+, a universal robot action tokenizer, trained on 1M real robot action
trajectories. It can be used as a black-box tokenizer for a wide range of robot
action sequences, with diverse action spaces and control frequencies. Finally,
we show that, when combined with the pi0 VLA, our method can scale to training
on 10k hours of robot data and match the performance of diffusion VLAs, while
reducing training time by up to 5x.Summary
AI-Generated Summary