비디오 생성 모델은 비디오를 관찰함으로써 물리적 원리를 학습합니까?
Do generative video models learn physical principles from watching videos?
January 14, 2025
저자: Saman Motamed, Laura Culp, Kevin Swersky, Priyank Jaini, Robert Geirhos
cs.AI
초록
AI 비디오 생성 기술은 현재 혁명을 겪고 있으며 품질과 현실성이 급속히 발전하고 있습니다. 이러한 발전은 열정적인 과학적 논쟁을 불러일으켰습니다. 비디오 모델이 물리 법칙을 발견하는 "세계 모델"을 학습하는지, 아니면 단순히 물리적 원리를 이해하지 않고 시각적 현실성을 달성하는 정교한 픽셀 예측기인지에 대한 문제입니다. 우리는 이 질문에 대답하기 위해 Physics-IQ를 개발했습니다. 이는 유체 역학, 광학, 고체 역학, 자기 및 열역학과 같은 다양한 물리적 원리에 대한 심층적인 이해를 획득함으로써만 해결할 수 있는 포괄적인 벤치마크 데이터셋입니다. 우리는 현재 모델들(Sora, Runway, Pika, Lumiere, Stable Video Diffusion 및 VideoPoet)의 범위에 걸쳐 물리적 이해력이 심각하게 제한되어 있으며 시각적 현실성과 관련이 없음을 발견했습니다. 동시에, 일부 테스트 케이스는 이미 성공적으로 해결될 수 있음을 보여줍니다. 이는 단순히 관찰로부터 특정 물리적 원리를 습득하는 것이 가능할 수 있지만 중요한 도전이 남아있음을 나타냅니다. 우리는 앞으로의 급속한 발전을 기대하지만, 우리의 연구는 시각적 현실성이 물리적 이해를 의미하지 않음을 보여줍니다. 우리의 프로젝트 페이지는 https://physics-iq.github.io에서 확인할 수 있으며, 코드는 https://github.com/google-deepmind/physics-IQ-benchmark에서 확인할 수 있습니다.
English
AI video generation is undergoing a revolution, with quality and realism
advancing rapidly. These advances have led to a passionate scientific debate:
Do video models learn ``world models'' that discover laws of physics -- or,
alternatively, are they merely sophisticated pixel predictors that achieve
visual realism without understanding the physical principles of reality? We
address this question by developing Physics-IQ, a comprehensive benchmark
dataset that can only be solved by acquiring a deep understanding of various
physical principles, like fluid dynamics, optics, solid mechanics, magnetism
and thermodynamics. We find that across a range of current models (Sora,
Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical
understanding is severely limited, and unrelated to visual realism. At the same
time, some test cases can already be successfully solved. This indicates that
acquiring certain physical principles from observation alone may be possible,
but significant challenges remain. While we expect rapid advances ahead, our
work demonstrates that visual realism does not imply physical understanding.
Our project page is at https://physics-iq.github.io; code at
https://github.com/google-deepmind/physics-IQ-benchmark.Summary
AI-Generated Summary