ChatPaper.aiChatPaper

SketchVideo: Generazione e Modifica di Video Basati su Schizzi

SketchVideo: Sketch-based Video Generation and Editing

March 30, 2025
Autori: Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao
cs.AI

Abstract

La generazione e l'editing di video condizionati da prompt testuali o immagini hanno registrato progressi significativi. Tuttavia, permangono sfide nel controllare accuratamente il layout globale e i dettagli geometrici esclusivamente attraverso testi, e nel supportare il controllo del movimento e le modifiche locali tramite immagini. In questo articolo, miriamo a ottenere un controllo spaziale e del movimento basato su schizzi per la generazione di video e a supportare un editing granulare di video reali o sintetici. Basandoci sul modello di generazione video DiT, proponiamo una struttura di controllo efficiente in termini di memoria con blocchi di controllo basati su schizzi che predicono le caratteristiche residue dei blocchi DiT saltati. Gli schizzi vengono disegnati su uno o due fotogrammi chiave (in punti temporali arbitrari) per facilitare l'interazione. Per propagare tali condizioni di schizzo temporalmente sparse su tutti i fotogrammi, proponiamo un meccanismo di attenzione inter-fotogramma per analizzare la relazione tra i fotogrammi chiave e ciascun fotogramma del video. Per l'editing video basato su schizzi, progettiamo un modulo aggiuntivo di inserimento video che mantiene la coerenza tra il contenuto appena modificato e la caratteristica spaziale e il movimento dinamico del video originale. Durante l'inferenza, utilizziamo la fusione latente per la preservazione accurata delle regioni non modificate. Esperimenti estensivi dimostrano che il nostro SketchVideo raggiunge prestazioni superiori nella generazione e nell'editing video controllabile.
English
Video generation and editing conditioned on text prompts or images have undergone significant advancements. However, challenges remain in accurately controlling global layout and geometry details solely by texts, and supporting motion control and local modification through images. In this paper, we aim to achieve sketch-based spatial and motion control for video generation and support fine-grained editing of real or synthetic videos. Based on the DiT video generation model, we propose a memory-efficient control structure with sketch control blocks that predict residual features of skipped DiT blocks. Sketches are drawn on one or two keyframes (at arbitrary time points) for easy interaction. To propagate such temporally sparse sketch conditions across all frames, we propose an inter-frame attention mechanism to analyze the relationship between the keyframes and each video frame. For sketch-based video editing, we design an additional video insertion module that maintains consistency between the newly edited content and the original video's spatial feature and dynamic motion. During inference, we use latent fusion for the accurate preservation of unedited regions. Extensive experiments demonstrate that our SketchVideo achieves superior performance in controllable video generation and editing.

Summary

AI-Generated Summary

PDF233April 1, 2025