Erforschung der Evolution der Physik-Kognition in der Videogenerierung: Ein Überblick
Exploring the Evolution of Physics Cognition in Video Generation: A Survey
March 27, 2025
Autoren: Minghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Videogenerierung haben bedeutende Fortschritte erzielt, insbesondere durch die rasche Entwicklung von Diffusionsmodellen. Dennoch haben ihre Defizite in der physikalischen Kognition zunehmend Aufmerksamkeit erregt – generierte Inhalte verstoßen oft gegen grundlegende physikalische Gesetze und geraten in das Dilemma von „visueller Realismus, aber physikalischer Absurdität“. Forscher begannen, die Bedeutung physikalischer Treue in der Videogenerierung zunehmend zu erkennen und versuchten, heuristische physikalische Kognition wie Bewegungsrepräsentationen und physikalisches Wissen in generative Systeme zu integrieren, um reale dynamische Szenarien zu simulieren. Angesichts des Mangels an einer systematischen Übersicht in diesem Bereich zielt dieser Überblick darauf ab, eine umfassende Zusammenfassung von Architekturdesigns und ihren Anwendungen zu bieten, um diese Lücke zu schließen. Konkret diskutieren und organisieren wir den Entwicklungsprozess der physikalischen Kognition in der Videogenerierung aus einer kognitionswissenschaftlichen Perspektive und schlagen dabei eine dreistufige Taxonomie vor: 1) grundlegende Schema-Wahrnehmung für die Generierung, 2) passive Kognition physikalischen Wissens für die Generierung und 3) aktive Kognition für die Weltsimulation, die state-of-the-art Methoden, klassische Paradigmen und Benchmarks umfasst. Anschließend betonen wir die inhärenten Schlüsselherausforderungen in diesem Bereich und skizzieren potenzielle Wege für zukünftige Forschung, um die Diskussionsgrenzen in Wissenschaft und Industrie voranzutreiben. Durch strukturierte Überprüfung und interdisziplinäre Analyse zielt dieser Überblick darauf ab, Richtungsweisungen für die Entwicklung interpretierbarer, kontrollierbarer und physikalisch konsistenter Videogenerierungs-Paradigmen zu bieten und damit generative Modelle von der Phase der „visuellen Nachahmung“ in eine neue Phase des „menschlichen physikalischen Verständnisses“ zu führen.
English
Recent advancements in video generation have witnessed significant progress,
especially with the rapid advancement of diffusion models. Despite this, their
deficiencies in physical cognition have gradually received widespread attention
- generated content often violates the fundamental laws of physics, falling
into the dilemma of ''visual realism but physical absurdity". Researchers began
to increasingly recognize the importance of physical fidelity in video
generation and attempted to integrate heuristic physical cognition such as
motion representations and physical knowledge into generative systems to
simulate real-world dynamic scenarios. Considering the lack of a systematic
overview in this field, this survey aims to provide a comprehensive summary of
architecture designs and their applications to fill this gap. Specifically, we
discuss and organize the evolutionary process of physical cognition in video
generation from a cognitive science perspective, while proposing a three-tier
taxonomy: 1) basic schema perception for generation, 2) passive cognition of
physical knowledge for generation, and 3) active cognition for world
simulation, encompassing state-of-the-art methods, classical paradigms, and
benchmarks. Subsequently, we emphasize the inherent key challenges in this
domain and delineate potential pathways for future research, contributing to
advancing the frontiers of discussion in both academia and industry. Through
structured review and interdisciplinary analysis, this survey aims to provide
directional guidance for developing interpretable, controllable, and physically
consistent video generation paradigms, thereby propelling generative models
from the stage of ''visual mimicry'' towards a new phase of ''human-like
physical comprehension''.Summary
AI-Generated Summary