動画生成モデルは、動画を観察することで物理法則を学習するのでしょうか?
Do generative video models learn physical principles from watching videos?
January 14, 2025
著者: Saman Motamed, Laura Culp, Kevin Swersky, Priyank Jaini, Robert Geirhos
cs.AI
要旨
AIビデオ生成は革命を遂げており、品質とリアリズムが急速に進化しています。これらの進歩により、情熱的な科学的論争が生まれました。ビデオモデルは物理法則を発見する「ワールドモデル」を学習するのか、あるいは単なる洗練されたピクセル予測機械であり、物理的原理を理解せずに視覚的リアリズムを実現するのか、という問いに対処します。私たちは、物理学-IQという包括的なベンチマークデータセットを開発することで、流体力学、光学、固体力学、磁気学、熱力学などのさまざまな物理的原理を深く理解することでのみ解決できるデータセットであることを明らかにします。現在のモデル(Sora、Runway、Pika、Lumiere、Stable Video Diffusion、VideoPoet)において、物理理解は著しく制限され、視覚的リアリズムとは関係がないことがわかりました。同時に、一部のテストケースは既に成功裏に解決されています。これは、観察だけで特定の物理的原理を獲得することが可能かもしれないことを示唆していますが、重要な課題が残っています。今後の急速な進歩が期待される一方、私たちの研究は、視覚的リアリズムが物理理解を意味しないことを示しています。プロジェクトページはhttps://physics-iq.github.ioにあり、コードはhttps://github.com/google-deepmind/physics-IQ-benchmarkにあります。
English
AI video generation is undergoing a revolution, with quality and realism
advancing rapidly. These advances have led to a passionate scientific debate:
Do video models learn ``world models'' that discover laws of physics -- or,
alternatively, are they merely sophisticated pixel predictors that achieve
visual realism without understanding the physical principles of reality? We
address this question by developing Physics-IQ, a comprehensive benchmark
dataset that can only be solved by acquiring a deep understanding of various
physical principles, like fluid dynamics, optics, solid mechanics, magnetism
and thermodynamics. We find that across a range of current models (Sora,
Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical
understanding is severely limited, and unrelated to visual realism. At the same
time, some test cases can already be successfully solved. This indicates that
acquiring certain physical principles from observation alone may be possible,
but significant challenges remain. While we expect rapid advances ahead, our
work demonstrates that visual realism does not imply physical understanding.
Our project page is at https://physics-iq.github.io; code at
https://github.com/google-deepmind/physics-IQ-benchmark.Summary
AI-Generated Summary