비디오월드: 라벨이 없는 비디오로부터 지식 학습 탐구
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos
January 16, 2025
저자: Zhongwei Ren, Yunchao Wei, Xun Guo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin
cs.AI
초록
본 연구는 텍스트 기반 모델인 대규모 언어 모델 (LLM)에 대한 주요 관심과 대조적으로, 깊은 생성 모델이 시각적 입력만으로 복잡한 지식을 학습할 수 있는지 탐구한다. 우리는 미분류된 비디오 데이터로 훈련된 자기 회귀 비디오 생성 모델 VideoWorld를 개발하고, 비디오 기반 고와 로봇 제어 작업에서 그 지식 습득 능력을 테스트한다. 우리의 실험은 두 가지 주요 결과를 보여준다: (1) 비디오만을 이용한 훈련은 규칙, 추론 및 계획 능력을 포함한 지식을 학습하는 데 충분한 정보를 제공하며, (2) 시각적 변화의 표현이 지식 습득에 중요하다. 이 프로세스의 효율성과 효과성을 높이기 위해, 우리는 VideoWorld의 주요 구성 요소로 잠재 동역학 모델 (LDM)을 소개한다. 놀랍게도, VideoWorld는 3억 개의 매개변수 모델만으로 비디오-고벤치에서 5단 프로페셔널 수준에 도달하며, 강화 학습에서 일반적인 검색 알고리즘이나 보상 메커니즘에 의존하지 않는다. 로봇 작업에서 VideoWorld는 다양한 제어 작업을 효과적으로 학습하고 환경을 횡단하여 CALVIN과 RLBench의 오라클 모델의 성능에 가까이 다가간다. 본 연구는 시각 데이터로부터 지식 습득을 위한 새로운 길을 열며, 모든 코드, 데이터 및 모델은 추가 연구를 위해 오픈 소스로 제공된다.
English
This work explores whether a deep generative model can learn complex
knowledge solely from visual input, in contrast to the prevalent focus on
text-based models like large language models (LLMs). We develop VideoWorld, an
auto-regressive video generation model trained on unlabeled video data, and
test its knowledge acquisition abilities in video-based Go and robotic control
tasks. Our experiments reveal two key findings: (1) video-only training
provides sufficient information for learning knowledge, including rules,
reasoning and planning capabilities, and (2) the representation of visual
change is crucial for knowledge acquisition. To improve both the efficiency and
efficacy of this process, we introduce the Latent Dynamics Model (LDM) as a key
component of VideoWorld. Remarkably, VideoWorld reaches a 5-dan professional
level in the Video-GoBench with just a 300-million-parameter model, without
relying on search algorithms or reward mechanisms typical in reinforcement
learning. In robotic tasks, VideoWorld effectively learns diverse control
operations and generalizes across environments, approaching the performance of
oracle models in CALVIN and RLBench. This study opens new avenues for knowledge
acquisition from visual data, with all code, data, and models open-sourced for
further research.Summary
AI-Generated Summary