SkyReels-A2: Comporre qualsiasi cosa nei Transformer di Diffusione Video
SkyReels-A2: Compose Anything in Video Diffusion Transformers
April 3, 2025
Autori: Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou
cs.AI
Abstract
Questo articolo presenta SkyReels-A2, un framework di generazione video controllabile in grado di assemblare elementi visivi arbitrari (ad esempio, personaggi, oggetti, sfondi) in video sintetizzati basati su prompt testuali, mantenendo una stretta coerenza con immagini di riferimento per ciascun elemento. Definiamo questo compito come "elementi-a-video" (E2V), le cui principali sfide risiedono nel preservare la fedeltà di ciascun elemento di riferimento, garantire una composizione coerente della scena e ottenere output naturali. Per affrontare queste sfide, progettiamo innanzitutto una pipeline dati completa per costruire triplette prompt-riferimento-video per l'addestramento del modello. Successivamente, proponiamo un nuovo modello di embedding congiunto immagine-testo per iniettare rappresentazioni multi-elemento nel processo generativo, bilanciando la coerenza specifica degli elementi con la coerenza globale e l'allineamento al testo. Ottimizziamo inoltre la pipeline di inferenza sia per la velocità che per la stabilità dell'output. Inoltre, introduciamo un benchmark accuratamente curato per la valutazione sistematica, denominato A2 Bench. Gli esperimenti dimostrano che il nostro framework può generare video diversificati e di alta qualità con un controllo preciso degli elementi. SkyReels-A2 è il primo modello open-source di livello commerciale per la generazione di E2V, ottenendo risultati favorevoli rispetto a modelli commerciali avanzati a codice chiuso. Prevediamo che SkyReels-A2 avanzerà applicazioni creative come il dramma e l'e-commerce virtuale, spingendo i confini della generazione video controllabile.
English
This paper presents SkyReels-A2, a controllable video generation framework
capable of assembling arbitrary visual elements (e.g., characters, objects,
backgrounds) into synthesized videos based on textual prompts while maintaining
strict consistency with reference images for each element. We term this task
elements-to-video (E2V), whose primary challenges lie in preserving the
fidelity of each reference element, ensuring coherent composition of the scene,
and achieving natural outputs. To address these, we first design a
comprehensive data pipeline to construct prompt-reference-video triplets for
model training. Next, we propose a novel image-text joint embedding model to
inject multi-element representations into the generative process, balancing
element-specific consistency with global coherence and text alignment. We also
optimize the inference pipeline for both speed and output stability. Moreover,
we introduce a carefully curated benchmark for systematic evaluation, i.e, A2
Bench. Experiments demonstrate that our framework can generate diverse,
high-quality videos with precise element control. SkyReels-A2 is the first
open-source commercial grade model for the generation of E2V, performing
favorably against advanced closed-source commercial models. We anticipate
SkyReels-A2 will advance creative applications such as drama and virtual
e-commerce, pushing the boundaries of controllable video generation.Summary
AI-Generated Summary