Os modelos de vídeo generativos aprendem princípios físicos ao assistir vídeos?

Do generative video models learn physical principles from watching videos?

January 14, 2025
Autores: Saman Motamed, Laura Culp, Kevin Swersky, Priyank Jaini, Robert Geirhos
cs.AI

Resumo

A geração de vídeo por IA está passando por uma revolução, com qualidade e realismo avançando rapidamente. Esses avanços levaram a um debate científico apaixonado: Os modelos de vídeo aprendem "modelos do mundo" que descobrem leis da física -- ou, alternativamente, são apenas sofisticados preditores de pixels que alcançam realismo visual sem compreender os princípios físicos da realidade? Abordamos essa questão desenvolvendo Physics-IQ, um conjunto abrangente de dados de referência que só pode ser resolvido adquirindo um entendimento profundo de vários princípios físicos, como dinâmica de fluidos, óptica, mecânica dos sólidos, magnetismo e termodinâmica. Descobrimos que, em uma variedade de modelos atuais (Sora, Runway, Pika, Lumiere, Stable Video Diffusion e VideoPoet), o entendimento físico é severamente limitado e não está relacionado ao realismo visual. Ao mesmo tempo, alguns casos de teste já podem ser resolvidos com sucesso. Isso indica que adquirir certos princípios físicos apenas por observação pode ser possível, mas desafios significativos permanecem. Embora esperemos avanços rápidos no futuro, nosso trabalho demonstra que o realismo visual não implica em entendimento físico. Nossa página do projeto está em https://physics-iq.github.io; código em https://github.com/google-deepmind/physics-IQ-benchmark.
English
AI video generation is undergoing a revolution, with quality and realism advancing rapidly. These advances have led to a passionate scientific debate: Do video models learn ``world models'' that discover laws of physics -- or, alternatively, are they merely sophisticated pixel predictors that achieve visual realism without understanding the physical principles of reality? We address this question by developing Physics-IQ, a comprehensive benchmark dataset that can only be solved by acquiring a deep understanding of various physical principles, like fluid dynamics, optics, solid mechanics, magnetism and thermodynamics. We find that across a range of current models (Sora, Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical understanding is severely limited, and unrelated to visual realism. At the same time, some test cases can already be successfully solved. This indicates that acquiring certain physical principles from observation alone may be possible, but significant challenges remain. While we expect rapid advances ahead, our work demonstrates that visual realism does not imply physical understanding. Our project page is at https://physics-iq.github.io; code at https://github.com/google-deepmind/physics-IQ-benchmark.

Summary

AI-Generated Summary

PDF112January 17, 2025