SCHNELL: Effiziente Tokenisierung von Aktionen für Modelle zur Verbindung von Bildern, Sprache und Aktionen

Zusammenfassung

Autoregressive Sequenzmodelle, wie Transformer-basierte Vision-Language-Action (VLA) Richtlinien, können äußerst effektiv sein, um komplexe und generalisierbare robotische Verhaltensweisen zu erfassen. Allerdings erfordern solche Modelle die Auswahl einer Tokenisierung unserer kontinuierlichen Aktionsignale, die bestimmt, wie die diskreten Symbole, die vom Modell vorhergesagt werden, zu kontinuierlichen Roboteraktionen abgebildet werden. Wir stellen fest, dass aktuelle Ansätze für die Tokenisierung von Roboteraktionen, die auf einfachen pro Dimension, pro Zeitschritt Binning-Schemata basieren, in der Regel schlecht abschneiden, wenn es darum geht, geschickte Fähigkeiten aus hochfrequenten Roboterdaten zu erlernen. Um diese Herausforderung anzugehen, schlagen wir ein neues kompressionsbasiertes Tokenisierungsschema für Roboteraktionen vor, das auf der diskreten Cosinus-Transformation basiert. Unser Tokenisierungsansatz, Frequency-space Action Sequence Tokenization (FAST), ermöglicht es uns, autoregressive VLAs für äußerst geschickte und hochfrequente Aufgaben zu trainieren, bei denen herkömmliche Diskretisierungsmethoden vollständig versagen. Basierend auf FAST veröffentlichen wir FAST+, einen universellen Roboteraktions-Tokenizer, der auf 1M realen Roboteraktions-Trajektorien trainiert ist. Er kann als Black-Box-Tokenizer für eine Vielzahl von Roboteraktionssequenzen mit unterschiedlichen Aktionsräumen und Steuerfrequenzen verwendet werden. Schließlich zeigen wir, dass unsere Methode in Kombination mit dem pi0 VLA auf das Training von 10k Stunden Roboterdaten skaliert werden kann und die Leistung von Diffusion VLAs erreicht, wobei die Trainingszeit um bis zu 5x reduziert wird.

English

Autoregressive sequence models, such as Transformer-based vision-language action (VLA) policies, can be tremendously effective for capturing complex and generalizable robotic behaviors. However, such models require us to choose a tokenization of our continuous action signals, which determines how the discrete symbols predicted by the model map to continuous robot actions. We find that current approaches for robot action tokenization, based on simple per-dimension, per-timestep binning schemes, typically perform poorly when learning dexterous skills from high-frequency robot data. To address this challenge, we propose a new compression-based tokenization scheme for robot actions, based on the discrete cosine transform. Our tokenization approach, Frequency-space Action Sequence Tokenization (FAST), enables us to train autoregressive VLAs for highly dexterous and high-frequency tasks where standard discretization methods fail completely. Based on FAST, we release FAST+, a universal robot action tokenizer, trained on 1M real robot action trajectories. It can be used as a black-box tokenizer for a wide range of robot action sequences, with diverse action spaces and control frequencies. Finally, we show that, when combined with the pi0 VLA, our method can scale to training on 10k hours of robot data and match the performance of diffusion VLAs, while reducing training time by up to 5x.

SCHNELL: Effiziente Tokenisierung von Aktionen für Modelle zur Verbindung von Bildern, Sprache und Aktionen

FAST: Efficient Action Tokenization for Vision-Language-Action Models

Zusammenfassung

Support