SCHNELL: Effiziente Tokenisierung von Aktionen für Modelle zur Verbindung von Bildern, Sprache und Aktionen
FAST: Efficient Action Tokenization for Vision-Language-Action Models
January 16, 2025
Autoren: Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine
cs.AI
Zusammenfassung
Autoregressive Sequenzmodelle, wie Transformer-basierte Vision-Language-Action (VLA) Richtlinien, können äußerst effektiv sein, um komplexe und generalisierbare robotische Verhaltensweisen zu erfassen. Allerdings erfordern solche Modelle die Auswahl einer Tokenisierung unserer kontinuierlichen Aktionsignale, die bestimmt, wie die diskreten Symbole, die vom Modell vorhergesagt werden, zu kontinuierlichen Roboteraktionen abgebildet werden. Wir stellen fest, dass aktuelle Ansätze für die Tokenisierung von Roboteraktionen, die auf einfachen pro Dimension, pro Zeitschritt Binning-Schemata basieren, in der Regel schlecht abschneiden, wenn es darum geht, geschickte Fähigkeiten aus hochfrequenten Roboterdaten zu erlernen. Um diese Herausforderung anzugehen, schlagen wir ein neues kompressionsbasiertes Tokenisierungsschema für Roboteraktionen vor, das auf der diskreten Cosinus-Transformation basiert. Unser Tokenisierungsansatz, Frequency-space Action Sequence Tokenization (FAST), ermöglicht es uns, autoregressive VLAs für äußerst geschickte und hochfrequente Aufgaben zu trainieren, bei denen herkömmliche Diskretisierungsmethoden vollständig versagen. Basierend auf FAST veröffentlichen wir FAST+, einen universellen Roboteraktions-Tokenizer, der auf 1M realen Roboteraktions-Trajektorien trainiert ist. Er kann als Black-Box-Tokenizer für eine Vielzahl von Roboteraktionssequenzen mit unterschiedlichen Aktionsräumen und Steuerfrequenzen verwendet werden. Schließlich zeigen wir, dass unsere Methode in Kombination mit dem pi0 VLA auf das Training von 10k Stunden Roboterdaten skaliert werden kann und die Leistung von Diffusion VLAs erreicht, wobei die Trainingszeit um bis zu 5x reduziert wird.
English
Autoregressive sequence models, such as Transformer-based vision-language
action (VLA) policies, can be tremendously effective for capturing complex and
generalizable robotic behaviors. However, such models require us to choose a
tokenization of our continuous action signals, which determines how the
discrete symbols predicted by the model map to continuous robot actions. We
find that current approaches for robot action tokenization, based on simple
per-dimension, per-timestep binning schemes, typically perform poorly when
learning dexterous skills from high-frequency robot data. To address this
challenge, we propose a new compression-based tokenization scheme for robot
actions, based on the discrete cosine transform. Our tokenization approach,
Frequency-space Action Sequence Tokenization (FAST), enables us to train
autoregressive VLAs for highly dexterous and high-frequency tasks where
standard discretization methods fail completely. Based on FAST, we release
FAST+, a universal robot action tokenizer, trained on 1M real robot action
trajectories. It can be used as a black-box tokenizer for a wide range of robot
action sequences, with diverse action spaces and control frequencies. Finally,
we show that, when combined with the pi0 VLA, our method can scale to training
on 10k hours of robot data and match the performance of diffusion VLAs, while
reducing training time by up to 5x.Summary
AI-Generated Summary