Dans quelle mesure la génération de vidéos est-elle éloignée du modèle mondial : une perspective des lois physiques
How Far is Video Generation from World Model: A Physical Law Perspective
November 4, 2024
Auteurs: Bingyi Kang, Yang Yue, Rui Lu, Zhijie Lin, Yang Zhao, Kaixin Wang, Gao Huang, Jiashi Feng
cs.AI
Résumé
Sora d'OpenAI met en avant le potentiel de la génération vidéo pour le développement de modèles du monde respectant les lois physiques fondamentales. Cependant, la capacité des modèles de génération vidéo à découvrir de telles lois uniquement à partir de données visuelles sans prérequis humains peut être remise en question. Un modèle du monde apprenant la vraie loi devrait fournir des prédictions robustes aux nuances et extrapoler correctement sur des scénarios non vus. Dans ce travail, nous évaluons à travers trois scénarios clés : en distribution, hors distribution et généralisation combinatoire. Nous avons développé une plateforme de test de simulation 2D pour le mouvement d'objets et les collisions afin de générer des vidéos gouvernées de manière déterministe par une ou plusieurs lois de la mécanique classique. Cela fournit un approvisionnement illimité de données pour des expérimentations à grande échelle et permet une évaluation quantitative de la conformité des vidéos générées aux lois physiques. Nous avons entraîné des modèles de génération vidéo basés sur la diffusion pour prédire les mouvements d'objets à partir de trames initiales. Nos expériences de mise à l'échelle montrent une généralisation parfaite dans la distribution, un comportement de mise à l'échelle mesurable pour la généralisation combinatoire, mais un échec dans les scénarios hors distribution. D'autres expériences révèlent deux idées clés sur les mécanismes de généralisation de ces modèles : (1) les modèles échouent à abstraire des règles physiques générales et présentent plutôt un comportement de généralisation "par cas", c'est-à-dire en imitant l'exemple d'entraînement le plus proche ; (2) lors de la généralisation à de nouveaux cas, les modèles sont observés prioriser différents facteurs lors de la référence aux données d'entraînement : couleur > taille > vélocité > forme. Notre étude suggère que la mise à l'échelle seule est insuffisante pour que les modèles de génération vidéo découvrent les lois physiques fondamentales, malgré son rôle dans le succès plus large de Sora. Consultez notre page de projet sur https://phyworld.github.io
English
OpenAI's Sora highlights the potential of video generation for developing
world models that adhere to fundamental physical laws. However, the ability of
video generation models to discover such laws purely from visual data without
human priors can be questioned. A world model learning the true law should give
predictions robust to nuances and correctly extrapolate on unseen scenarios. In
this work, we evaluate across three key scenarios: in-distribution,
out-of-distribution, and combinatorial generalization. We developed a 2D
simulation testbed for object movement and collisions to generate videos
deterministically governed by one or more classical mechanics laws. This
provides an unlimited supply of data for large-scale experimentation and
enables quantitative evaluation of whether the generated videos adhere to
physical laws. We trained diffusion-based video generation models to predict
object movements based on initial frames. Our scaling experiments show perfect
generalization within the distribution, measurable scaling behavior for
combinatorial generalization, but failure in out-of-distribution scenarios.
Further experiments reveal two key insights about the generalization mechanisms
of these models: (1) the models fail to abstract general physical rules and
instead exhibit "case-based" generalization behavior, i.e., mimicking the
closest training example; (2) when generalizing to new cases, models are
observed to prioritize different factors when referencing training data: color
> size > velocity > shape. Our study suggests that scaling alone is
insufficient for video generation models to uncover fundamental physical laws,
despite its role in Sora's broader success. See our project page at
https://phyworld.github.ioSummary
AI-Generated Summary