Espelho Mágico: Geração de Vídeo com Preservação de Identidade em Difusão de Vídeo Transformers
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers
January 7, 2025
Autores: Yuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia
cs.AI
Resumo
Apresentamos o Magic Mirror, um framework para gerar vídeos preservando identidade com qualidade de nível cinematográfico e movimento dinâmico. Enquanto avanços recentes em modelos de difusão de vídeo têm mostrado capacidades impressionantes na geração de texto para vídeo, manter uma identidade consistente ao produzir movimentos naturais continua sendo um desafio. Métodos anteriores exigem ajustes finos específicos para cada pessoa ou têm dificuldade em equilibrar a preservação de identidade com a diversidade de movimento. Baseado nos Transformadores de Difusão de Vídeo, nosso método introduz três componentes-chave: (1) um extrator de características faciais de duplo ramo que captura tanto a identidade quanto as características estruturais, (2) um adaptador cruzado leve com Normalização Adaptativa Condicionada para integração eficiente de identidade, e (3) uma estratégia de treinamento em duas etapas combinando pares de identidade sintética com dados de vídeo. Experimentos extensivos demonstram que o Magic Mirror equilibra efetivamente a consistência de identidade com o movimento natural, superando métodos existentes em várias métricas, exigindo um mínimo de parâmetros adicionais. O código e o modelo estarão disponíveis publicamente em: https://github.com/dvlab-research/MagicMirror/
English
We present Magic Mirror, a framework for generating identity-preserved videos
with cinematic-level quality and dynamic motion. While recent advances in video
diffusion models have shown impressive capabilities in text-to-video
generation, maintaining consistent identity while producing natural motion
remains challenging. Previous methods either require person-specific
fine-tuning or struggle to balance identity preservation with motion diversity.
Built upon Video Diffusion Transformers, our method introduces three key
components: (1) a dual-branch facial feature extractor that captures both
identity and structural features, (2) a lightweight cross-modal adapter with
Conditioned Adaptive Normalization for efficient identity integration, and (3)
a two-stage training strategy combining synthetic identity pairs with video
data. Extensive experiments demonstrate that Magic Mirror effectively balances
identity consistency with natural motion, outperforming existing methods across
multiple metrics while requiring minimal parameters added. The code and model
will be made publicly available at:
https://github.com/dvlab-research/MagicMirror/Summary
AI-Generated Summary