VideoGen-of-Thought: un framework collaborativo per la generazione di video multi-shot.
VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation
December 3, 2024
Autori: Mingzhe Zheng, Yongqi Xu, Haojian Huang, Xuran Ma, Yexin Liu, Wenjie Shu, Yatian Pang, Feilong Tang, Qifeng Chen, Harry Yang, Ser-Nam Lim
cs.AI
Abstract
I modelli attuali di generazione video eccellono nella creazione di brevi clip ma faticano ancora nella realizzazione di video multi-shot simili a film. I modelli esistenti, addestrati su dati su larga scala con ricchi mezzi computazionali, sono sorprendentemente inadeguati nel mantenere una trama logica e una coerenza visiva attraverso più riprese di uno script coeso poiché spesso vengono addestrati con un obiettivo a singola ripresa. A tal fine, proponiamo VideoGen-of-Thought (VGoT), un'architettura collaborativa e priva di addestramento progettata specificamente per la generazione di video multi-shot. VGoT è progettato con tre obiettivi in mente come segue. Generazione di Video Multi-Shot: Suddividiamo il processo di generazione video in una sequenza strutturata e modulare, inclusa (1) Generazione dello Script, che traduce una breve storia in dettagliati suggerimenti per ogni ripresa; (2) Generazione di Keyframe, responsabile della creazione di keyframe visualmente coerenti fedeli alle rappresentazioni dei personaggi; e (3) Generazione di Video a Livello di Ripresa, che trasforma le informazioni dagli script e dai keyframe in riprese; (4) Meccanismo di Smoothing che garantisce un output multi-shot coerente. Progettazione Narrativa Ragionevole: Ispirandoci alla scrittura di script cinematografici, il nostro approccio alla generazione di suggerimenti copre cinque domini chiave, garantendo coerenza logica, sviluppo dei personaggi e flusso narrativo in tutto il video. Coerenza tra Riprese: Garantiamo coerenza temporale e di identità sfruttando embedding preservativi dell'identità (IP) tra le riprese, che vengono creati automaticamente dalla narrazione. Inoltre, incorporiamo un meccanismo di smoothing tra riprese, che integra un confine di reset che combina efficacemente le caratteristiche latenti delle riprese adiacenti, risultando in transizioni fluide e mantenendo coerenza visiva in tutto il video. I nostri esperimenti dimostrano che VGoT supera i metodi esistenti di generazione video nella produzione di video multi-shot di alta qualità e coerenti.
English
Current video generation models excel at generating short clips but still
struggle with creating multi-shot, movie-like videos. Existing models trained
on large-scale data on the back of rich computational resources are
unsurprisingly inadequate for maintaining a logical storyline and visual
consistency across multiple shots of a cohesive script since they are often
trained with a single-shot objective. To this end, we propose
VideoGen-of-Thought (VGoT), a collaborative and training-free architecture
designed specifically for multi-shot video generation. VGoT is designed with
three goals in mind as follows. Multi-Shot Video Generation: We divide the
video generation process into a structured, modular sequence, including (1)
Script Generation, which translates a curt story into detailed prompts for each
shot; (2) Keyframe Generation, responsible for creating visually consistent
keyframes faithful to character portrayals; and (3) Shot-Level Video
Generation, which transforms information from scripts and keyframes into shots;
(4) Smoothing Mechanism that ensures a consistent multi-shot output. Reasonable
Narrative Design: Inspired by cinematic scriptwriting, our prompt generation
approach spans five key domains, ensuring logical consistency, character
development, and narrative flow across the entire video. Cross-Shot
Consistency: We ensure temporal and identity consistency by leveraging
identity-preserving (IP) embeddings across shots, which are automatically
created from the narrative. Additionally, we incorporate a cross-shot smoothing
mechanism, which integrates a reset boundary that effectively combines latent
features from adjacent shots, resulting in smooth transitions and maintaining
visual coherence throughout the video. Our experiments demonstrate that VGoT
surpasses existing video generation methods in producing high-quality,
coherent, multi-shot videos.Summary
AI-Generated Summary