Могут ли генеративные видеомодели извлекать физические принципы из просмотра видеороликов?
Do generative video models learn physical principles from watching videos?
January 14, 2025
Авторы: Saman Motamed, Laura Culp, Kevin Swersky, Priyank Jaini, Robert Geirhos
cs.AI
Аннотация
Генерация видео с использованием искусственного интеллекта претерпевает революцию, с качеством и реализмом, развивающимися стремительно. Эти достижения привели к страстному научному дебату: научатся ли видеомодели "моделям мира", которые открывают законы физики, или же они просто сложные предсказатели пикселей, достигающие визуального реализма без понимания физических принципов реальности? Мы рассматриваем этот вопрос, разрабатывая Physics-IQ, обширный набор данных для оценки, который можно решить только, обладая глубоким пониманием различных физических принципов, таких как гидродинамика, оптика, твердая механика, магнетизм и термодинамика. Мы обнаружили, что у большинства существующих моделей (Sora, Runway, Pika, Lumiere, Stable Video Diffusion и VideoPoet) понимание физики сильно ограничено и не связано с визуальным реализмом. В то же время некоторые тестовые случаи уже могут быть успешно решены. Это указывает на то, что возможно приобретение определенных физических принципов только на основе наблюдения, но остаются значительные препятствия. Хотя мы ожидаем быстрого прогресса вперед, наша работа демонстрирует, что визуальный реализм не подразумевает понимания физики. Наша страница проекта находится по адресу https://physics-iq.github.io; код доступен на https://github.com/google-deepmind/physics-IQ-benchmark.
English
AI video generation is undergoing a revolution, with quality and realism
advancing rapidly. These advances have led to a passionate scientific debate:
Do video models learn ``world models'' that discover laws of physics -- or,
alternatively, are they merely sophisticated pixel predictors that achieve
visual realism without understanding the physical principles of reality? We
address this question by developing Physics-IQ, a comprehensive benchmark
dataset that can only be solved by acquiring a deep understanding of various
physical principles, like fluid dynamics, optics, solid mechanics, magnetism
and thermodynamics. We find that across a range of current models (Sora,
Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical
understanding is severely limited, and unrelated to visual realism. At the same
time, some test cases can already be successfully solved. This indicates that
acquiring certain physical principles from observation alone may be possible,
but significant challenges remain. While we expect rapid advances ahead, our
work demonstrates that visual realism does not imply physical understanding.
Our project page is at https://physics-iq.github.io; code at
https://github.com/google-deepmind/physics-IQ-benchmark.Summary
AI-Generated Summary