비디오로부터의 잠재 행동 사전 훈련

Latent Action Pretraining from Videos

October 15, 2024
저자: Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo
cs.AI

초록

우리는 일반적인 행동 모델 (LAPA)을 위한 잠재 행동 사전학습(Latent Action Pretraining)인 Vison-Language-Action(VLA) 모델을 사전학습하는 비지도 학습 방법인 LAPA를 소개합니다. 기존의 Vision-Language-Action 모델은 사전학습 중에 인간 텔레오퍼레이터가 일반적으로 수집하는 행동 레이블이 필요합니다. 이는 가능한 데이터 소스와 규모를 제한하는 중요한 요소입니다. 본 연구에서는 로봇 행동 레이블이 없는 인터넷 규모의 비디오에서 학습하는 방법을 제안합니다. 먼저 이미지 프레임 사이의 이산 잠재 행동을 학습하기 위해 VQ-VAE 기반 목적 함수를 활용하는 행동 양자화 모델을 학습한 후, 이러한 잠재 행동을 관측 및 작업 설명으로부터 예측하는 잠재 VLA 모델을 사전학습하고, 마지막으로 잠재에서 로봇 행동으로 매핑하기 위해 소규모 로봇 조작 데이터에서 VLA를 세밀 조정합니다. 실험 결과는 우리의 방법이 대규모 비디오로부터 로봇 조작 정책을 학습하는 기존 기술을 현격히 능가함을 보여줍니다. 더 나아가, 이 방법은 언어 조건, 보이지 않는 객체로의 일반화, 보이지 않는 지시 사항으로의 의미적 일반화가 필요한 실제 조작 작업에서 로봇 행동 레이블로 학습된 최첨단 VLA 모델을 능가합니다. 인간 조작 비디오만을 학습한 결과도 긍정적인 전이를 보여 로봇 공학 기초 모델에 웹 규모 데이터를 활용하는 잠재력을 열어줍니다.
English
We introduce Latent Action Pretraining for general Action models (LAPA), an unsupervised method for pretraining Vision-Language-Action (VLA) models without ground-truth robot action labels. Existing Vision-Language-Action models require action labels typically collected by human teleoperators during pretraining, which significantly limits possible data sources and scale. In this work, we propose a method to learn from internet-scale videos that do not have robot action labels. We first train an action quantization model leveraging VQ-VAE-based objective to learn discrete latent actions between image frames, then pretrain a latent VLA model to predict these latent actions from observations and task descriptions, and finally finetune the VLA on small-scale robot manipulation data to map from latent to robot actions. Experimental results demonstrate that our method significantly outperforms existing techniques that train robot manipulation policies from large-scale videos. Furthermore, it outperforms the state-of-the-art VLA model trained with robotic action labels on real-world manipulation tasks that require language conditioning, generalization to unseen objects, and semantic generalization to unseen instructions. Training only on human manipulation videos also shows positive transfer, opening up the potential for leveraging web-scale data for robotics foundation model.

Summary

AI-Generated Summary

PDF22November 16, 2024