Quanto è lontana la Generazione di Video dal Modello del Mondo: Una Prospettiva delle Leggi Fisiche
How Far is Video Generation from World Model: A Physical Law Perspective
November 4, 2024
Autori: Bingyi Kang, Yang Yue, Rui Lu, Zhijie Lin, Yang Zhao, Kaixin Wang, Gao Huang, Jiashi Feng
cs.AI
Abstract
Sora di OpenAI mette in evidenza il potenziale della generazione video per lo sviluppo di modelli del mondo che rispettino le leggi fisiche fondamentali. Tuttavia, la capacità dei modelli di generazione video di scoprire tali leggi esclusivamente dai dati visivi senza preconcetti umani può essere messa in discussione. Un modello del mondo che apprende la vera legge dovrebbe fornire previsioni robuste ai dettagli e fare corrette estrapolazioni su scenari non visti. In questo lavoro, valutiamo attraverso tre scenari chiave: in distribuzione, fuori distribuzione e generalizzazione combinatoria. Abbiamo sviluppato una piattaforma di test di simulazione 2D per il movimento degli oggetti e le collisioni per generare video deterministicamente regolati da una o più leggi di meccanica classica. Questo fornisce un'offerta illimitata di dati per sperimentazioni su larga scala e consente una valutazione quantitativa del rispetto delle leggi fisiche nei video generati. Abbiamo addestrato modelli di generazione video basati sulla diffusione per prevedere i movimenti degli oggetti basati sui frame iniziali. I nostri esperimenti di scalabilità mostrano una generalizzazione perfetta all'interno della distribuzione, un comportamento di scalabilità misurabile per la generalizzazione combinatoria, ma un fallimento nei casi fuori distribuzione. Ulteriori esperimenti rivelano due chiavi di lettura sui meccanismi di generalizzazione di questi modelli: (1) i modelli non riescono ad astrarre regole fisiche generali e invece mostrano un comportamento di generalizzazione "basato sui casi", cioè imitando il caso di addestramento più simile; (2) quando si generalizza a nuovi casi, si osserva che i modelli danno priorità a diversi fattori nel fare riferimento ai dati di addestramento: colore > dimensione > velocità > forma. Il nostro studio suggerisce che la sola scalabilità non è sufficiente affinché i modelli di generazione video possano scoprire leggi fisiche fondamentali, nonostante il suo ruolo nel successo più ampio di Sora. Consulta la nostra pagina del progetto su https://phyworld.github.io
English
OpenAI's Sora highlights the potential of video generation for developing
world models that adhere to fundamental physical laws. However, the ability of
video generation models to discover such laws purely from visual data without
human priors can be questioned. A world model learning the true law should give
predictions robust to nuances and correctly extrapolate on unseen scenarios. In
this work, we evaluate across three key scenarios: in-distribution,
out-of-distribution, and combinatorial generalization. We developed a 2D
simulation testbed for object movement and collisions to generate videos
deterministically governed by one or more classical mechanics laws. This
provides an unlimited supply of data for large-scale experimentation and
enables quantitative evaluation of whether the generated videos adhere to
physical laws. We trained diffusion-based video generation models to predict
object movements based on initial frames. Our scaling experiments show perfect
generalization within the distribution, measurable scaling behavior for
combinatorial generalization, but failure in out-of-distribution scenarios.
Further experiments reveal two key insights about the generalization mechanisms
of these models: (1) the models fail to abstract general physical rules and
instead exhibit "case-based" generalization behavior, i.e., mimicking the
closest training example; (2) when generalizing to new cases, models are
observed to prioritize different factors when referencing training data: color
> size > velocity > shape. Our study suggests that scaling alone is
insufficient for video generation models to uncover fundamental physical laws,
despite its role in Sora's broader success. See our project page at
https://phyworld.github.ioSummary
AI-Generated Summary