ChatPaper.aiChatPaper

Esplorando l'Evoluzione della Cognizione Fisica nella Generazione di Video: Una Rassegna

Exploring the Evolution of Physics Cognition in Video Generation: A Survey

March 27, 2025
Autori: Minghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang
cs.AI

Abstract

I recenti progressi nella generazione video hanno registrato avanzamenti significativi, in particolare con il rapido sviluppo dei modelli di diffusione. Nonostante ciò, le loro carenze nella cognizione fisica hanno gradualmente ricevuto un'attenzione diffusa: i contenuti generati spesso violano le leggi fondamentali della fisica, cadendo nel dilemma del "realismo visivo ma assurdità fisica". I ricercatori hanno iniziato a riconoscere sempre più l'importanza della fedeltà fisica nella generazione video e hanno tentato di integrare cognizioni fisiche euristiche, come rappresentazioni del movimento e conoscenze fisiche, nei sistemi generativi per simulare scenari dinamici del mondo reale. Considerando la mancanza di una panoramica sistematica in questo campo, questa rassegna mira a fornire una sintesi completa dei progetti architetturali e delle loro applicazioni per colmare questa lacuna. Nello specifico, discutiamo e organizziamo il processo evolutivo della cognizione fisica nella generazione video da una prospettiva di scienza cognitiva, proponendo una tassonomia a tre livelli: 1) percezione dello schema di base per la generazione, 2) cognizione passiva delle conoscenze fisiche per la generazione e 3) cognizione attiva per la simulazione del mondo, includendo metodi all'avanguardia, paradigmi classici e benchmark. Successivamente, sottolineiamo le sfide chiave intrinseche in questo dominio e delineiamo potenziali percorsi per la ricerca futura, contribuendo ad avanzare le frontiere della discussione sia in ambito accademico che industriale. Attraverso una revisione strutturata e un'analisi interdisciplinare, questa rassegna mira a fornire una guida direzionale per lo sviluppo di paradigmi di generazione video interpretabili, controllabili e fisicamente coerenti, spingendo così i modelli generativi dalla fase di "mimesi visiva" verso una nuova fase di "comprensione fisica simile a quella umana".
English
Recent advancements in video generation have witnessed significant progress, especially with the rapid advancement of diffusion models. Despite this, their deficiencies in physical cognition have gradually received widespread attention - generated content often violates the fundamental laws of physics, falling into the dilemma of ''visual realism but physical absurdity". Researchers began to increasingly recognize the importance of physical fidelity in video generation and attempted to integrate heuristic physical cognition such as motion representations and physical knowledge into generative systems to simulate real-world dynamic scenarios. Considering the lack of a systematic overview in this field, this survey aims to provide a comprehensive summary of architecture designs and their applications to fill this gap. Specifically, we discuss and organize the evolutionary process of physical cognition in video generation from a cognitive science perspective, while proposing a three-tier taxonomy: 1) basic schema perception for generation, 2) passive cognition of physical knowledge for generation, and 3) active cognition for world simulation, encompassing state-of-the-art methods, classical paradigms, and benchmarks. Subsequently, we emphasize the inherent key challenges in this domain and delineate potential pathways for future research, contributing to advancing the frontiers of discussion in both academia and industry. Through structured review and interdisciplinary analysis, this survey aims to provide directional guidance for developing interpretable, controllable, and physically consistent video generation paradigms, thereby propelling generative models from the stage of ''visual mimicry'' towards a new phase of ''human-like physical comprehension''.

Summary

AI-Generated Summary

PDF112March 28, 2025