主題:潛在運動標記作為機器人操作的橋樑語言

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

December 5, 2024
作者: Yi Chen, Yuying Ge, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu
cs.AI

摘要

最近在大型語言模型上進行的預訓練,通過對廣泛語料庫的預訓練,在各種自然語言處理任務中取得了顯著成功,而只需進行最少的微調。這種成功為機器人技術帶來了新的希望,長期以來,機器人技術一直受制於高昂的動作標記數據成本。我們提出一個問題:鑒於豐富的包含互動相關知識的視頻數據作為豐富的“語料庫”,是否可以有效應用類似的生成式預訓練方法來增強機器人學習?關鍵挑戰在於確定一種對機器人操作任務有益的自回歸預訓練的有效表示。受人類通過觀察動態環境學習新技能的方式啟發,我們提出,有效的機器人學習應該強調與低級動作密切相關的運動相關知識,並且與硬件無關,有助於將學習到的運動轉移到實際機器人動作中。為此,我們引入了Moto,通過潛在運動標記生成器將視頻內容轉換為潛在運動標記序列,以無監督的方式從視頻中學習運動的連接“語言”。我們通過運動標記自回歸對Moto-GPT進行預訓練,使其能夠捕捉多樣的視覺運動知識。在預訓練之後,Moto-GPT展示了產生語義可解釋的運動標記、預測合理的運動軌跡以及通過輸出概率評估軌跡合理性的潛力。為了將學習到的運動先驗知識轉移到真實機器人動作中,我們實施了一種協同微調策略,無縫地橋接潛在運動標記預測和真實機器人控制。大量實驗表明,微調後的Moto-GPT在機器人操作基準測試中表現出優越的穩健性和效率,突顯了它在從視頻數據轉移到下游視覺操作任務中的有效性。
English
Recent developments in Large Language Models pre-trained on extensive corpora have shown significant success in various natural language processing tasks with minimal fine-tuning. This success offers new promise for robotics, which has long been constrained by the high cost of action-labeled data. We ask: given the abundant video data containing interaction-related knowledge available as a rich "corpus", can a similar generative pre-training approach be effectively applied to enhance robot learning? The key challenge is to identify an effective representation for autoregressive pre-training that benefits robot manipulation tasks. Inspired by the way humans learn new skills through observing dynamic environments, we propose that effective robotic learning should emphasize motion-related knowledge, which is closely tied to low-level actions and is hardware-agnostic, facilitating the transfer of learned motions to actual robot actions. To this end, we introduce Moto, which converts video content into latent Motion Token sequences by a Latent Motion Tokenizer, learning a bridging "language" of motion from videos in an unsupervised manner. We pre-train Moto-GPT through motion token autoregression, enabling it to capture diverse visual motion knowledge. After pre-training, Moto-GPT demonstrates the promising ability to produce semantically interpretable motion tokens, predict plausible motion trajectories, and assess trajectory rationality through output likelihood. To transfer learned motion priors to real robot actions, we implement a co-fine-tuning strategy that seamlessly bridges latent motion token prediction and real robot control. Extensive experiments show that the fine-tuned Moto-GPT exhibits superior robustness and efficiency on robot manipulation benchmarks, underscoring its effectiveness in transferring knowledge from video data to downstream visual manipulation tasks.

Summary

AI-Generated Summary

論文概述

本文旨在探討如何利用大型語言模型(LLMs)在豐富的視頻數據上進行自回歸預訓練,以增強機器人學習。通過引入Moto,將視頻轉換為潛在運動令牌序列,實現預訓練,並通過共同微調策略將學習到的運動先驗知識轉移到實際機器人操作中。

核心貢獻

  1. 引入潛在運動令牌作為自回歸預訓練的橋樑語言,增強機器人學習。
  2. 通過在視頻數據上進行潛在運動令牌預測來預訓練Moto-GPT,使模型學習有用的運動先驗知識。
  3. 實施共同微調策略,成功將學習到的運動先驗知識轉移到實際機器人操作中,並在機器人基準測試中展現出競爭力。

研究背景

本研究針對機器學習和機器人技術,探討如何利用大規模動作視頻預訓練、視覺-語言模型等方法,將視頻生成應用於機器人操作中,並強調視頻作為實際決策制定的新語言。

研究缺口

  1. 缺乏從無動作視頻中學習行為的模型。
  2. 需要更好的機器人操作策略的設計和評估。
  3. 缺乏3D視覺-語言-動作生成世界模型的研究。
  4. 需要更多關於在線機器人學習基準測試的探討。
  5. 缺乏視覺-語言-動作模型在網絡知識轉移到機器人控制中的應用研究。

技術挑戰

  1. 如何有效將視頻轉換為潛在運動令牌序列。
  2. 如何實現預訓練模型以吸收視頻中的運動先驗知識。
  3. 如何實現共同微調策略,將學習到的知識轉移到實際機器人操作中。

先前方法

  1. 一些研究集中在視覺-語言模型在機器人操作中的應用。
  2. 一些研究探討了視頻生成在視覺機器人操作中的應用。
  3. 一些研究提出了開源機器人操作模型。

方法論

本文使用潛在運動令牌化器將視頻幀之間的動態轉換為潛在運動令牌序列,並通過Moto-GPT實現預訓練,最大化潛在運動令牌序列的可能性。在精細調整階段,引入特殊動作查詢標記,生成真實機器人動作。

理論基礎

Moto-GPT使用GPT風格的變壓器進行自回歸,以潛在運動標記軌跡作為輸入,實現對潛在運動令牌序列的預測。

技術架構

  • 使用潛在運動令牌化器將視頻轉換為潛在運動令牌序列。
  • Moto-GPT在預訓練階段最大化潛在運動令牌序列的可能性。
  • 在精細調整階段,引入特殊動作查詢標記,生成真實機器人動作。

實施細節

  • 實驗設置包括使用SIMPLER和CALVIN作為主要評估基準,進行不同模型的比較。
  • Moto-GPT的實現細節包括GPT主幹和動作頭,並在精細調整階段使用不同的動作查詢標記數量。

創新點

  • Moto-GPT通過潛在運動令牌作為“語言”接口,將視頻數據的生成預訓練與精確的機器人控制相結合。

實驗驗證

本文通過實驗驗證了潛在運動令牌作為可解釋的運動語言,以及Moto-GPT在預測運動軌跡和機器人操作方面的有效性。

實驗設置

  • 使用SIMPLER和CALVIN作為主要評估基準。
  • Moto-GPT在精細調整階段使用不同的動作查詢標記數量。

評估指標

  • 使用對數似然作為軌跡視頻的獎勵信號,評估軌跡與Moto-GPT的分佈對齊程度。
  • 衡量行為的時間一致性。

實驗結果

  • 潛在運動令牌作為運動語言,有效地重建和理解視頻中的運動軌跡。
  • Moto-GPT在預測合理運動軌跡和評估機器人軌跡合理性方面取得了良好的結果。
  • 經過微調的Moto-GPT在機器人操作方面表現出顯著的性能改進。

比較分析

  • Moto-GPT的整體性能優於基線模型,表現出對未見環境的強大泛化能力。
  • Moto-GPT在CALVIN(ABC→D)上的成功率隨著微調數據增加而擴大,表現出適應性強。

影響與意義

本研究的關鍵發現包括潛在運動令牌作為運動語言的有效性,以及Moto-GPT在機器人操作中的性能改進。然而,仍存在一些限制,未來研究可以探索更多潛在的應用和改進方向。

關鍵發現

  1. 潛在運動令牌作為可解釋的運動語言。
  2. Moto-GPT在機器人操作中表現出競爭力。
  3. 協同微調策略對模型性能至關重要。

限制

  • 依賴於有限的微調數據。
  • 需要更多實驗驗證和改進。

未來方向

  • 探索更大的預訓練視頻數據。
  • 提高機器人操作任務的性能。

實際意義

  • 為機器人操作領域帶來新的可能性。
  • 提高機器人操作的效率和準確性。

熱門論文

1比特LLM時代:所有大型語言模型都在1.58比特。
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu WeiFeb 27, 2024612142

DeepSeek-R1:通過強化學習激勵LLM中的推理能力
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253735

Qwen2.5 技術報告
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436311

PDF232December 9, 2024