Specchio magico: Generazione di video preservando l'ID nei Transformers di diffusione video
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers
January 7, 2025
Autori: Yuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia
cs.AI
Abstract
Presentiamo Magic Mirror, un framework per generare video preservando l'identità con qualità di livello cinematografico e movimento dinamico. Mentre i recenti progressi nei modelli di diffusione video hanno dimostrato capacità impressionanti nella generazione di video da testo, mantenere un'identità coerente producendo un movimento naturale rimane una sfida. I metodi precedenti richiedono o un adattamento fine specifico della persona o faticano a bilanciare la preservazione dell'identità con la diversità del movimento. Basato sui Video Diffusion Transformers, il nostro metodo introduce tre componenti chiave: (1) un estrattore di caratteristiche facciali a doppio ramo che cattura sia l'identità che le caratteristiche strutturali, (2) un adattatore cross-modale leggero con Normalizzazione Adattiva Condizionata per un'integrazione efficiente dell'identità e (3) una strategia di addestramento a due fasi che combina coppie di identità sintetiche con dati video. Gli esperimenti estesi dimostrano che Magic Mirror bilancia efficacemente la coerenza dell'identità con il movimento naturale, superando i metodi esistenti su più metriche con l'aggiunta minima di parametri. Il codice e il modello saranno resi pubblicamente disponibili su: https://github.com/dvlab-research/MagicMirror/
English
We present Magic Mirror, a framework for generating identity-preserved videos
with cinematic-level quality and dynamic motion. While recent advances in video
diffusion models have shown impressive capabilities in text-to-video
generation, maintaining consistent identity while producing natural motion
remains challenging. Previous methods either require person-specific
fine-tuning or struggle to balance identity preservation with motion diversity.
Built upon Video Diffusion Transformers, our method introduces three key
components: (1) a dual-branch facial feature extractor that captures both
identity and structural features, (2) a lightweight cross-modal adapter with
Conditioned Adaptive Normalization for efficient identity integration, and (3)
a two-stage training strategy combining synthetic identity pairs with video
data. Extensive experiments demonstrate that Magic Mirror effectively balances
identity consistency with natural motion, outperforming existing methods across
multiple metrics while requiring minimal parameters added. The code and model
will be made publicly available at:
https://github.com/dvlab-research/MagicMirror/Summary
AI-Generated Summary