Hoe ver staat Video Generatie van Wereldmodel: Een Perspectief van Fysische Wetten

Samenvatting

OpenAI's Sora benadrukt het potentieel van videogeneratie voor het ontwikkelen van wereldmodellen die voldoen aan fundamentele natuurkundige wetten. Echter kan de capaciteit van videogeneratiemodellen om dergelijke wetten puur uit visuele data te ontdekken zonder menselijke voorkennis in twijfel worden getrokken. Een wereldmodel dat de ware wet leert, zou voorspellingen moeten geven die robuust zijn tegen nuances en correct extrapoleren naar ongeziene scenario's. In dit werk evalueren we over drie belangrijke scenario's: in-distributie, out-of-distributie en combinatoriële generalisatie. We hebben een 2D-simulatietestomgeving ontwikkeld voor objectbeweging en botsingen om video's te genereren die deterministisch worden beheerst door een of meer klassieke mechanische wetten. Dit biedt een onbeperkte hoeveelheid gegevens voor grootschalige experimenten en maakt kwantitatieve evaluatie mogelijk of de gegenereerde video's voldoen aan natuurkundige wetten. We hebben op diffusie gebaseerde videogeneratiemodellen getraind om objectbewegingen te voorspellen op basis van initiële frames. Onze schaalexperimenten tonen perfecte generalisatie binnen de distributie, meetbaar schalingsgedrag voor combinatoriële generalisatie, maar falen in out-of-distributiescenario's. Verdere experimenten onthullen twee belangrijke inzichten over de generalisatiemechanismen van deze modellen: (1) de modellen falen om algemene fysische regels abstract te maken en vertonen in plaats daarvan "geval-gebaseerd" generalisatiegedrag, d.w.z., het nabootsen van het dichtstbijzijnde trainingsvoorbeeld; (2) bij generalisatie naar nieuwe gevallen wordt waargenomen dat modellen verschillende factoren prioriteren bij het verwijzen naar trainingsgegevens: kleur > grootte > snelheid > vorm. Onze studie suggereert dat schalen alleen onvoldoende is voor videogeneratiemodellen om fundamentele natuurkundige wetten te ontdekken, ondanks de rol ervan in het bredere succes van Sora. Zie onze projectpagina op https://phyworld.github.io

English

OpenAI's Sora highlights the potential of video generation for developing world models that adhere to fundamental physical laws. However, the ability of video generation models to discover such laws purely from visual data without human priors can be questioned. A world model learning the true law should give predictions robust to nuances and correctly extrapolate on unseen scenarios. In this work, we evaluate across three key scenarios: in-distribution, out-of-distribution, and combinatorial generalization. We developed a 2D simulation testbed for object movement and collisions to generate videos deterministically governed by one or more classical mechanics laws. This provides an unlimited supply of data for large-scale experimentation and enables quantitative evaluation of whether the generated videos adhere to physical laws. We trained diffusion-based video generation models to predict object movements based on initial frames. Our scaling experiments show perfect generalization within the distribution, measurable scaling behavior for combinatorial generalization, but failure in out-of-distribution scenarios. Further experiments reveal two key insights about the generalization mechanisms of these models: (1) the models fail to abstract general physical rules and instead exhibit "case-based" generalization behavior, i.e., mimicking the closest training example; (2) when generalizing to new cases, models are observed to prioritize different factors when referencing training data: color > size > velocity > shape. Our study suggests that scaling alone is insufficient for video generation models to uncover fundamental physical laws, despite its role in Sora's broader success. See our project page at https://phyworld.github.io

Hoe ver staat Video Generatie van Wereldmodel: Een Perspectief van Fysische Wetten

How Far is Video Generation from World Model: A Physical Law Perspective

Samenvatting

Summary

Support