ChatPaper.aiChatPaper

이질적 가려진 자기회귀를 사용하여 실제 세계의 행동 비디오 역학 학습

Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression

February 6, 2025
저자: Lirui Wang, Kevin Zhao, Chaoqi Liu, Xinlei Chen
cs.AI

초록

우리는 고품질 데이터 및 평가를 생성하기 위해 스케일링 로봇 학습에 Heterogeneous Masked Autoregression (HMA)를 제안합니다. 상호작용하는 비디오 세계 모델 및 정책을 구축하는 것은 다양한 설정을 다루는 동안 실시간으로 실행되는 계산 효율성을 유지하는 도전 때문에 어렵습니다. HMA는 다양한 로봇 구현체, 도메인 및 작업에서의 관측 및 행동 순서로부터 이질적 사전 훈련을 사용합니다. HMA는 비디오 예측을 위해 양자화된 또는 부드러운 토큰을 생성하기 위해 마스크된 자기회귀를 사용합니다. \ourshort는 이전 로봇 비디오 생성 모델보다 시각적 충실도와 조절 가능성이 더 뛰어나며 실제 세계에서 15배 빠른 속도로 실행됩니다. 사후 훈련 후 이 모델은 정책을 평가하고 합성 데이터를 생성하기 위해 저수준 액션 입력으로부터 비디오 시뮬레이터로 사용할 수 있습니다. 자세한 내용은 다음 링크를 참조하십시오: https://liruiw.github.io/hma.
English
We propose Heterogeneous Masked Autoregression (HMA) for modeling action-video dynamics to generate high-quality data and evaluation in scaling robot learning. Building interactive video world models and policies for robotics is difficult due to the challenge of handling diverse settings while maintaining computational efficiency to run in real time. HMA uses heterogeneous pre-training from observations and action sequences across different robotic embodiments, domains, and tasks. HMA uses masked autoregression to generate quantized or soft tokens for video predictions. \ourshort achieves better visual fidelity and controllability than the previous robotic video generation models with 15 times faster speed in the real world. After post-training, this model can be used as a video simulator from low-level action inputs for evaluating policies and generating synthetic data. See this link https://liruiw.github.io/hma for more information.

Summary

AI-Generated Summary

PDF63February 7, 2025