Leren generatieve videomodellen fysische principes door het bekijken van video's?
Do generative video models learn physical principles from watching videos?
January 14, 2025
Auteurs: Saman Motamed, Laura Culp, Kevin Swersky, Priyank Jaini, Robert Geirhos
cs.AI
Samenvatting
De generatie van AI-video's ondergaat een revolutie, waarbij de kwaliteit en realisme snel vooruitgaan. Deze vooruitgang heeft geleid tot een gepassioneerd wetenschappelijk debat: Leren videomodellen "wereldmodellen" die natuurwetten ontdekken - of zijn ze slechts geavanceerde pixelvoorspellers die visueel realisme bereiken zonder de fysische principes van de realiteit te begrijpen? We behandelen deze vraag door Physics-IQ te ontwikkelen, een uitgebreide benchmarkdataset die alleen kan worden opgelost door een diepgaand begrip van verschillende fysische principes, zoals vloeistofdynamica, optica, vastestofmechanica, magnetisme en thermodynamica, te verwerven. We constateren dat bij een reeks huidige modellen (Sora, Runway, Pika, Lumiere, Stable Video Diffusion en VideoPoet) het begrip van de natuur beperkt is en niet gerelateerd is aan visueel realisme. Tegelijkertijd kunnen sommige testgevallen al succesvol worden opgelost. Dit geeft aan dat het mogelijk is om bepaalde fysische principes alleen door observatie te verwerven, maar er blijven aanzienlijke uitdagingen bestaan. Hoewel we snelle vooruitgang verwachten, toont ons werk aan dat visueel realisme geen fysisch begrip impliceert. Onze projectpagina is te vinden op https://physics-iq.github.io; de code op https://github.com/google-deepmind/physics-IQ-benchmark.
English
AI video generation is undergoing a revolution, with quality and realism
advancing rapidly. These advances have led to a passionate scientific debate:
Do video models learn ``world models'' that discover laws of physics -- or,
alternatively, are they merely sophisticated pixel predictors that achieve
visual realism without understanding the physical principles of reality? We
address this question by developing Physics-IQ, a comprehensive benchmark
dataset that can only be solved by acquiring a deep understanding of various
physical principles, like fluid dynamics, optics, solid mechanics, magnetism
and thermodynamics. We find that across a range of current models (Sora,
Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical
understanding is severely limited, and unrelated to visual realism. At the same
time, some test cases can already be successfully solved. This indicates that
acquiring certain physical principles from observation alone may be possible,
but significant challenges remain. While we expect rapid advances ahead, our
work demonstrates that visual realism does not imply physical understanding.
Our project page is at https://physics-iq.github.io; code at
https://github.com/google-deepmind/physics-IQ-benchmark.Summary
AI-Generated Summary