주제: 로봇 조작을 위한 연결 언어로서의 잠재 동작 토큰
Moto: Latent Motion Token as the Bridging Language for Robot Manipulation
December 5, 2024
저자: Yi Chen, Yuying Ge, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu
cs.AI
초록
최근 대규모 언어 모델의 발전은 광범위한 말뭉치에서 사전 훈련된 모델이 미세 조정만으로도 다양한 자연어 처리 작업에서 상당한 성공을 거두었습니다. 이러한 성과는 오랫동안 행동 레이블 데이터의 높은 비용으로 제한받아온 로봇공학에 새로운 희망을 제시합니다. 우리는 상호작용 관련 지식을 포함하는 풍부한 비디오 데이터가 있는 "말뭉치"로부터 유사한 생성 사전 훈련 접근 방식이 로봇 학습을 향상시키는 데 효과적으로 적용될 수 있는지 묻습니다. 핵심 과제는 로봇 조작 작업에 이점을 제공하는 자기회귀 사전 훈련을 위한 효과적인 표현을 식별하는 것입니다. 동적 환경을 관찰하면서 새로운 기술을 학습하는 방식에서 영감을 받아, 효과적인 로봇 학습은 하드웨어에 독립적인 저수준 작업과 관련된 동작 관련 지식을 강조해야 하며, 학습된 동작을 실제 로봇 동작으로 전달하는 것을 용이하게 해야 합니다. 이를 위해 비디오 콘텐츠를 잠재 동작 토큰 시퀀스로 변환하는 Moto를 소개합니다. 이는 잠재 동작 토크나이저를 통해 비지도 방식으로 비디오에서 동작 "언어"를 학습합니다. 우리는 Moto-GPT를 동작 토큰 자기회귀를 통해 사전 훈련하여 다양한 시각적 동작 지식을 포착할 수 있게 합니다. 사전 훈련 후, Moto-GPT는 의미론적으로 해석 가능한 동작 토큰을 생성하고 타당한 동작 궤적을 예측하며 출력 가능성을 통해 궤적 합리성을 평가하는 유망한 능력을 나타냅니다. 학습된 동작 사전을 실제 로봇 동작으로 전달하기 위해 잠재 동작 토큰 예측과 실제 로봇 제어를 원활하게 이어주는 공동 미세 조정 전략을 구현합니다. 광범위한 실험 결과, 미세 조정된 Moto-GPT는 로봇 조작 벤치마크에서 우수한 견고성과 효율성을 나타내며, 비디오 데이터로부터 하류 시각적 조작 작업으로 지식을 전달하는 데 효과적임을 강조합니다.
English
Recent developments in Large Language Models pre-trained on extensive corpora
have shown significant success in various natural language processing tasks
with minimal fine-tuning. This success offers new promise for robotics, which
has long been constrained by the high cost of action-labeled data. We ask:
given the abundant video data containing interaction-related knowledge
available as a rich "corpus", can a similar generative pre-training approach be
effectively applied to enhance robot learning? The key challenge is to identify
an effective representation for autoregressive pre-training that benefits robot
manipulation tasks. Inspired by the way humans learn new skills through
observing dynamic environments, we propose that effective robotic learning
should emphasize motion-related knowledge, which is closely tied to low-level
actions and is hardware-agnostic, facilitating the transfer of learned motions
to actual robot actions. To this end, we introduce Moto, which converts video
content into latent Motion Token sequences by a Latent Motion Tokenizer,
learning a bridging "language" of motion from videos in an unsupervised manner.
We pre-train Moto-GPT through motion token autoregression, enabling it to
capture diverse visual motion knowledge. After pre-training, Moto-GPT
demonstrates the promising ability to produce semantically interpretable motion
tokens, predict plausible motion trajectories, and assess trajectory
rationality through output likelihood. To transfer learned motion priors to
real robot actions, we implement a co-fine-tuning strategy that seamlessly
bridges latent motion token prediction and real robot control. Extensive
experiments show that the fine-tuned Moto-GPT exhibits superior robustness and
efficiency on robot manipulation benchmarks, underscoring its effectiveness in
transferring knowledge from video data to downstream visual manipulation tasks.Summary
AI-Generated Summary