Lernen generative Videomodelle physikalische Prinzipien, indem sie Videos beobachten?
Do generative video models learn physical principles from watching videos?
January 14, 2025
Autoren: Saman Motamed, Laura Culp, Kevin Swersky, Priyank Jaini, Robert Geirhos
cs.AI
Zusammenfassung
Die KI-Videoerzeugung durchläuft eine Revolution, wobei Qualität und Realismus sich schnell verbessern. Diese Fortschritte haben zu einer leidenschaftlichen wissenschaftlichen Debatte geführt: Lernen Videomodelle "Weltmodelle", die physikalische Gesetze entdecken – oder sind sie lediglich ausgefeilte Pixelvorhersager, die visuellen Realismus ohne Verständnis der physikalischen Prinzipien der Realität erreichen? Wir untersuchen diese Frage, indem wir Physics-IQ entwickeln, einen umfassenden Benchmark-Datensatz, der nur gelöst werden kann, indem ein tiefgreifendes Verständnis verschiedener physikalischer Prinzipien erlangt wird, wie z.B. Strömungsmechanik, Optik, Festkörpermechanik, Magnetismus und Thermodynamik. Wir stellen fest, dass bei einer Reihe aktueller Modelle (Sora, Runway, Pika, Lumiere, Stable Video Diffusion und VideoPoet) das physikalische Verständnis stark begrenzt ist und nicht mit dem visuellen Realismus zusammenhängt. Gleichzeitig können einige Testfälle bereits erfolgreich gelöst werden. Dies deutet darauf hin, dass das Erlangen bestimmter physikalischer Prinzipien allein durch Beobachtung möglich sein könnte, jedoch weiterhin bedeutende Herausforderungen bestehen. Obwohl wir schnelle Fortschritte erwarten, zeigt unsere Arbeit, dass visueller Realismus kein physikalisches Verständnis impliziert. Unsere Projektseite befindet sich unter https://physics-iq.github.io; der Code unter https://github.com/google-deepmind/physics-IQ-benchmark.
English
AI video generation is undergoing a revolution, with quality and realism
advancing rapidly. These advances have led to a passionate scientific debate:
Do video models learn ``world models'' that discover laws of physics -- or,
alternatively, are they merely sophisticated pixel predictors that achieve
visual realism without understanding the physical principles of reality? We
address this question by developing Physics-IQ, a comprehensive benchmark
dataset that can only be solved by acquiring a deep understanding of various
physical principles, like fluid dynamics, optics, solid mechanics, magnetism
and thermodynamics. We find that across a range of current models (Sora,
Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical
understanding is severely limited, and unrelated to visual realism. At the same
time, some test cases can already be successfully solved. This indicates that
acquiring certain physical principles from observation alone may be possible,
but significant challenges remain. While we expect rapid advances ahead, our
work demonstrates that visual realism does not imply physical understanding.
Our project page is at https://physics-iq.github.io; code at
https://github.com/google-deepmind/physics-IQ-benchmark.Summary
AI-Generated Summary