I modelli video generativi apprendono i principi fisici osservando video?

Do generative video models learn physical principles from watching videos?

January 14, 2025
Autori: Saman Motamed, Laura Culp, Kevin Swersky, Priyank Jaini, Robert Geirhos
cs.AI

Abstract

La generazione di video tramite intelligenza artificiale sta subendo una rivoluzione, con la qualità e il realismo che avanzano rapidamente. Questi progressi hanno portato a un appassionato dibattito scientifico: i modelli video apprendono "modelli del mondo" che scoprono le leggi della fisica, oppure sono semplicemente sofisticati predittori di pixel che raggiungono il realismo visivo senza comprendere i principi fisici della realtà? Affrontiamo questa questione sviluppando Physics-IQ, un ampio set di dati di benchmark che può essere risolto solo acquisendo una profonda comprensione di vari principi fisici, come la dinamica dei fluidi, l'ottica, la meccanica dei solidi, il magnetismo e la termodinamica. Scopriamo che in una serie di modelli attuali (Sora, Runway, Pika, Lumiere, Stable Video Diffusion e VideoPoet), la comprensione fisica è gravemente limitata e non correlata al realismo visivo. Allo stesso tempo, alcuni casi di test possono già essere risolti con successo. Ciò indica che acquisire certi principi fisici solo dall'osservazione potrebbe essere possibile, ma rimangono significativi ostacoli. Sebbene ci aspettiamo rapidi progressi in futuro, il nostro lavoro dimostra che il realismo visivo non implica la comprensione fisica. La pagina del nostro progetto si trova su https://physics-iq.github.io; il codice su https://github.com/google-deepmind/physics-IQ-benchmark.
English
AI video generation is undergoing a revolution, with quality and realism advancing rapidly. These advances have led to a passionate scientific debate: Do video models learn ``world models'' that discover laws of physics -- or, alternatively, are they merely sophisticated pixel predictors that achieve visual realism without understanding the physical principles of reality? We address this question by developing Physics-IQ, a comprehensive benchmark dataset that can only be solved by acquiring a deep understanding of various physical principles, like fluid dynamics, optics, solid mechanics, magnetism and thermodynamics. We find that across a range of current models (Sora, Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical understanding is severely limited, and unrelated to visual realism. At the same time, some test cases can already be successfully solved. This indicates that acquiring certain physical principles from observation alone may be possible, but significant challenges remain. While we expect rapid advances ahead, our work demonstrates that visual realism does not imply physical understanding. Our project page is at https://physics-iq.github.io; code at https://github.com/google-deepmind/physics-IQ-benchmark.

Summary

AI-Generated Summary

PDF92January 17, 2025