Titolo: Token di Movimento Latente come Linguaggio di Collegamento per la Manipolazione del Robot
Moto: Latent Motion Token as the Bridging Language for Robot Manipulation
December 5, 2024
Autori: Yi Chen, Yuying Ge, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu
cs.AI
Abstract
Gli sviluppi recenti nei Grandi Modelli Linguistici preaddestrati su corpora estesi hanno dimostrato un significativo successo in vari compiti di elaborazione del linguaggio naturale con una minima messa a punto. Questo successo offre una nuova promessa per la robotica, a lungo limitata dall'alto costo dei dati etichettati per le azioni. Ci chiediamo: dato l'abbondante materiale video contenente conoscenze legate all'interazione disponibili come un ricco "corpus", può un approccio simile di preaddestramento generativo essere applicato efficacemente per potenziare l'apprendimento robotico? La sfida chiave è identificare una rappresentazione efficace per il preaddestramento autoregressivo che beneficia dei compiti di manipolazione robotica. Ispirati al modo in cui gli esseri umani imparano nuove abilità osservando ambienti dinamici, proponiamo che l'apprendimento robotico efficace dovrebbe enfatizzare le conoscenze legate al movimento, strettamente legate alle azioni a basso livello e indipendenti dall'hardware, facilitando il trasferimento dei movimenti appresi alle azioni effettive del robot. A tal fine, presentiamo Moto, che converte il contenuto video in sequenze latenti di Token di Movimento tramite un Tokenizer di Movimento Latente, apprendendo un "linguaggio" di movimento di collegamento dai video in modo non supervisionato. Preaddestriamo Moto-GPT attraverso l'autoregressione dei token di movimento, consentendogli di catturare diverse conoscenze visive sul movimento. Dopo il preaddestramento, Moto-GPT dimostra la promettente capacità di produrre token di movimento semanticamente interpretabili, prevedere traiettorie di movimento plausibili e valutare la razionalità delle traiettorie attraverso la probabilità di output. Per trasferire i precedenti movimenti appresi alle azioni reali del robot, implementiamo una strategia di co-messa a punto che collega senza soluzione di continuità la previsione dei token di movimento latenti e il controllo reale del robot. Estesi esperimenti mostrano che il Moto-GPT messo a punto mostra una robustezza e un'efficienza superiori nei benchmark di manipolazione robotica, sottolineando la sua efficacia nel trasferire conoscenze dai dati video ai compiti di manipolazione visiva successivi.
English
Recent developments in Large Language Models pre-trained on extensive corpora
have shown significant success in various natural language processing tasks
with minimal fine-tuning. This success offers new promise for robotics, which
has long been constrained by the high cost of action-labeled data. We ask:
given the abundant video data containing interaction-related knowledge
available as a rich "corpus", can a similar generative pre-training approach be
effectively applied to enhance robot learning? The key challenge is to identify
an effective representation for autoregressive pre-training that benefits robot
manipulation tasks. Inspired by the way humans learn new skills through
observing dynamic environments, we propose that effective robotic learning
should emphasize motion-related knowledge, which is closely tied to low-level
actions and is hardware-agnostic, facilitating the transfer of learned motions
to actual robot actions. To this end, we introduce Moto, which converts video
content into latent Motion Token sequences by a Latent Motion Tokenizer,
learning a bridging "language" of motion from videos in an unsupervised manner.
We pre-train Moto-GPT through motion token autoregression, enabling it to
capture diverse visual motion knowledge. After pre-training, Moto-GPT
demonstrates the promising ability to produce semantically interpretable motion
tokens, predict plausible motion trajectories, and assess trajectory
rationality through output likelihood. To transfer learned motion priors to
real robot actions, we implement a co-fine-tuning strategy that seamlessly
bridges latent motion token prediction and real robot control. Extensive
experiments show that the fine-tuned Moto-GPT exhibits superior robustness and
efficiency on robot manipulation benchmarks, underscoring its effectiveness in
transferring knowledge from video data to downstream visual manipulation tasks.Summary
AI-Generated Summary