Wie weit ist die Videogenerierung vom Weltmodell entfernt: Eine Perspektive der physikalischen Gesetze

Zusammenfassung

OpenAI's Sora hebt das Potenzial der Videogenerierung hervor, um Weltmodelle zu entwickeln, die den grundlegenden physikalischen Gesetzen entsprechen. Die Fähigkeit von Videogenerierungsmodellen, solche Gesetze rein aus visuellen Daten ohne menschliche Vorkenntnisse zu entdecken, kann jedoch in Frage gestellt werden. Ein Weltmodell, das das wahre Gesetz lernt, sollte Vorhersagen liefern, die gegenüber Feinheiten robust sind und in unbekannten Szenarien korrekt extrapolieren. In dieser Arbeit bewerten wir über drei Schlüsselszenarien: in der Verteilung, außerhalb der Verteilung und kombinatorische Verallgemeinerung. Wir haben eine 2D-Simulationstestumgebung für Objektbewegung und Kollisionen entwickelt, um Videos deterministisch zu generieren, die von einem oder mehreren klassischen Mechanikgesetzen gesteuert werden. Dies bietet eine unbegrenzte Datenmenge für groß angelegte Experimente und ermöglicht eine quantitative Bewertung, ob die generierten Videos den physikalischen Gesetzen entsprechen. Wir haben diffusionsbasierte Videogenerierungsmodelle trainiert, um Objektbewegungen basierend auf den Anfangsrahmen vorherzusagen. Unsere Skalierungsexperimente zeigen perfekte Verallgemeinerung innerhalb der Verteilung, messbares Skalierungsverhalten für kombinatorische Verallgemeinerung, aber Misserfolg in Szenarien außerhalb der Verteilung. Weitere Experimente enthüllen zwei Schlüsselerkenntnisse über die Verallgemeinerungsmechanismen dieser Modelle: (1) die Modelle versagen dabei, allgemeine physikalische Regeln abstrakt zu erfassen und zeigen stattdessen ein "fallbasiertes" Verallgemeinerungsverhalten, d.h. das Nachahmen des nächstgelegenen Trainingsbeispiels; (2) beim Verallgemeinern zu neuen Fällen wird beobachtet, dass die Modelle verschiedene Faktoren priorisieren, wenn sie auf Trainingsdaten verweisen: Farbe > Größe > Geschwindigkeit > Form. Unsere Studie legt nahe, dass allein die Skalierung für Videogenerierungsmodelle nicht ausreicht, um grundlegende physikalische Gesetze aufzudecken, trotz ihrer Rolle im breiteren Erfolg von Sora. Besuchen Sie unsere Projektseite unter https://phyworld.github.io.

English

OpenAI's Sora highlights the potential of video generation for developing world models that adhere to fundamental physical laws. However, the ability of video generation models to discover such laws purely from visual data without human priors can be questioned. A world model learning the true law should give predictions robust to nuances and correctly extrapolate on unseen scenarios. In this work, we evaluate across three key scenarios: in-distribution, out-of-distribution, and combinatorial generalization. We developed a 2D simulation testbed for object movement and collisions to generate videos deterministically governed by one or more classical mechanics laws. This provides an unlimited supply of data for large-scale experimentation and enables quantitative evaluation of whether the generated videos adhere to physical laws. We trained diffusion-based video generation models to predict object movements based on initial frames. Our scaling experiments show perfect generalization within the distribution, measurable scaling behavior for combinatorial generalization, but failure in out-of-distribution scenarios. Further experiments reveal two key insights about the generalization mechanisms of these models: (1) the models fail to abstract general physical rules and instead exhibit "case-based" generalization behavior, i.e., mimicking the closest training example; (2) when generalizing to new cases, models are observed to prioritize different factors when referencing training data: color > size > velocity > shape. Our study suggests that scaling alone is insufficient for video generation models to uncover fundamental physical laws, despite its role in Sora's broader success. See our project page at https://phyworld.github.io

Wie weit ist die Videogenerierung vom Weltmodell entfernt: Eine Perspektive der physikalischen Gesetze

How Far is Video Generation from World Model: A Physical Law Perspective

Zusammenfassung

Support