VideoWorld: Erforschung des Wissenserwerbs aus unbeschrifteten Videos
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos
January 16, 2025
Autoren: Zhongwei Ren, Yunchao Wei, Xun Guo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin
cs.AI
Zusammenfassung
Diese Arbeit untersucht, ob ein tiefes generatives Modell komplexe Kenntnisse ausschließlich aus visuellen Eingaben erlernen kann, im Gegensatz zum vorherrschenden Fokus auf textbasierte Modelle wie großen Sprachmodellen (LLMs). Wir entwickeln VideoWorld, ein autoregressives Video-Generierungsmodell, das auf unbeschrifteten Videodaten trainiert ist, und testen seine Fähigkeiten zur Wissenserwerbung in Video-basierten Go- und Robotiksteuerungsaufgaben. Unsere Experimente zeigen zwei wesentliche Erkenntnisse auf: (1) Das Training ausschließlich mit Videos liefert ausreichende Informationen zum Erlernen von Wissen, einschließlich Regeln, Schlussfolgerungen und Planungsfähigkeiten, und (2) die Darstellung von visuellen Veränderungen ist entscheidend für den Wissenserwerb. Um sowohl die Effizienz als auch die Wirksamkeit dieses Prozesses zu verbessern, führen wir das Latent Dynamics Model (LDM) als Schlüsselkomponente von VideoWorld ein. Bemerkenswerterweise erreicht VideoWorld mit nur einem 300-Millionen-Parameter-Modell ohne Verwendung von Suchalgorithmen oder Belohnungsmechanismen, die typisch für das Verstärkungslernen sind, ein professionelles Niveau von 5 Dan im Video-GoBench. In Robotikaufgaben lernt VideoWorld effektiv verschiedene Steuerungsvorgänge und generalisiert über Umgebungen hinweg, wobei es die Leistung von Orakelmodellen in CALVIN und RLBench annähert. Diese Studie eröffnet neue Wege für den Wissenserwerb aus visuellen Daten, wobei der gesamte Code, die Daten und die Modelle für weitere Forschungszwecke quelloffen zur Verfügung stehen.
English
This work explores whether a deep generative model can learn complex
knowledge solely from visual input, in contrast to the prevalent focus on
text-based models like large language models (LLMs). We develop VideoWorld, an
auto-regressive video generation model trained on unlabeled video data, and
test its knowledge acquisition abilities in video-based Go and robotic control
tasks. Our experiments reveal two key findings: (1) video-only training
provides sufficient information for learning knowledge, including rules,
reasoning and planning capabilities, and (2) the representation of visual
change is crucial for knowledge acquisition. To improve both the efficiency and
efficacy of this process, we introduce the Latent Dynamics Model (LDM) as a key
component of VideoWorld. Remarkably, VideoWorld reaches a 5-dan professional
level in the Video-GoBench with just a 300-million-parameter model, without
relying on search algorithms or reward mechanisms typical in reinforcement
learning. In robotic tasks, VideoWorld effectively learns diverse control
operations and generalizes across environments, approaching the performance of
oracle models in CALVIN and RLBench. This study opens new avenues for knowledge
acquisition from visual data, with all code, data, and models open-sourced for
further research.Summary
AI-Generated Summary