VideoGen-of-Thought: un framework collaborativo per la generazione di video multi-shot.

Abstract

I modelli attuali di generazione video eccellono nella creazione di brevi clip ma faticano ancora nella realizzazione di video multi-shot simili a film. I modelli esistenti, addestrati su dati su larga scala con ricchi mezzi computazionali, sono sorprendentemente inadeguati nel mantenere una trama logica e una coerenza visiva attraverso più riprese di uno script coeso poiché spesso vengono addestrati con un obiettivo a singola ripresa. A tal fine, proponiamo VideoGen-of-Thought (VGoT), un'architettura collaborativa e priva di addestramento progettata specificamente per la generazione di video multi-shot. VGoT è progettato con tre obiettivi in mente come segue. Generazione di Video Multi-Shot: Suddividiamo il processo di generazione video in una sequenza strutturata e modulare, inclusa (1) Generazione dello Script, che traduce una breve storia in dettagliati suggerimenti per ogni ripresa; (2) Generazione di Keyframe, responsabile della creazione di keyframe visualmente coerenti fedeli alle rappresentazioni dei personaggi; e (3) Generazione di Video a Livello di Ripresa, che trasforma le informazioni dagli script e dai keyframe in riprese; (4) Meccanismo di Smoothing che garantisce un output multi-shot coerente. Progettazione Narrativa Ragionevole: Ispirandoci alla scrittura di script cinematografici, il nostro approccio alla generazione di suggerimenti copre cinque domini chiave, garantendo coerenza logica, sviluppo dei personaggi e flusso narrativo in tutto il video. Coerenza tra Riprese: Garantiamo coerenza temporale e di identità sfruttando embedding preservativi dell'identità (IP) tra le riprese, che vengono creati automaticamente dalla narrazione. Inoltre, incorporiamo un meccanismo di smoothing tra riprese, che integra un confine di reset che combina efficacemente le caratteristiche latenti delle riprese adiacenti, risultando in transizioni fluide e mantenendo coerenza visiva in tutto il video. I nostri esperimenti dimostrano che VGoT supera i metodi esistenti di generazione video nella produzione di video multi-shot di alta qualità e coerenti.

English

Current video generation models excel at generating short clips but still struggle with creating multi-shot, movie-like videos. Existing models trained on large-scale data on the back of rich computational resources are unsurprisingly inadequate for maintaining a logical storyline and visual consistency across multiple shots of a cohesive script since they are often trained with a single-shot objective. To this end, we propose VideoGen-of-Thought (VGoT), a collaborative and training-free architecture designed specifically for multi-shot video generation. VGoT is designed with three goals in mind as follows. Multi-Shot Video Generation: We divide the video generation process into a structured, modular sequence, including (1) Script Generation, which translates a curt story into detailed prompts for each shot; (2) Keyframe Generation, responsible for creating visually consistent keyframes faithful to character portrayals; and (3) Shot-Level Video Generation, which transforms information from scripts and keyframes into shots; (4) Smoothing Mechanism that ensures a consistent multi-shot output. Reasonable Narrative Design: Inspired by cinematic scriptwriting, our prompt generation approach spans five key domains, ensuring logical consistency, character development, and narrative flow across the entire video. Cross-Shot Consistency: We ensure temporal and identity consistency by leveraging identity-preserving (IP) embeddings across shots, which are automatically created from the narrative. Additionally, we incorporate a cross-shot smoothing mechanism, which integrates a reset boundary that effectively combines latent features from adjacent shots, resulting in smooth transitions and maintaining visual coherence throughout the video. Our experiments demonstrate that VGoT surpasses existing video generation methods in producing high-quality, coherent, multi-shot videos.

VideoGen-of-Thought: un framework collaborativo per la generazione di video multi-shot.

VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation

Abstract

Support