매직 미러: 비디오 확산 속 ID 보존 비디오 생성 트랜스포머
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers
January 7, 2025
저자: Yuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia
cs.AI
초록
우리는 신원 보존 비디오를 생성하는 Magic Mirror라는 프레임워크를 제시합니다. 이 프레임워크는 시네마틱 수준의 품질과 동적 움직임을 갖춘 비디오를 생성합니다. 최근 비디오 확산 모델의 발전은 텍스트에서 비디오로의 생성에서 인상적인 능력을 보여주었지만, 자연스러운 움직임을 만들면서 일관된 신원을 유지하는 것은 여전히 어려운 문제입니다. 이전 방법들은 특정 인물에 대한 미세 조정이 필요하거나 신원 보존과 움직임 다양성 사이의 균형을 유지하기 어려웠습니다. Video Diffusion Transformers를 기반으로 한 우리의 방법은 세 가지 주요 구성 요소를 도입합니다: (1) 신원과 구조적 특징을 모두 캡처하는 이중 분기 얼굴 특징 추출기, (2) 효율적인 신원 통합을 위한 Conditioned Adaptive Normalization이 있는 가벼운 교차 모달 어댑터, 그리고 (3) 비디오 데이터와 합성 신원 쌍을 결합하는 두 단계 학습 전략. 광범위한 실험 결과, Magic Mirror가 신원 일관성과 자연스러운 움직임을 효과적으로 균형있게 유지하며, 기존 방법들을 여러 측면에서 능가하면서 추가적인 최소 매개변수가 필요합니다. 코드와 모델은 다음에서 공개적으로 제공될 예정입니다: https://github.com/dvlab-research/MagicMirror/
English
We present Magic Mirror, a framework for generating identity-preserved videos
with cinematic-level quality and dynamic motion. While recent advances in video
diffusion models have shown impressive capabilities in text-to-video
generation, maintaining consistent identity while producing natural motion
remains challenging. Previous methods either require person-specific
fine-tuning or struggle to balance identity preservation with motion diversity.
Built upon Video Diffusion Transformers, our method introduces three key
components: (1) a dual-branch facial feature extractor that captures both
identity and structural features, (2) a lightweight cross-modal adapter with
Conditioned Adaptive Normalization for efficient identity integration, and (3)
a two-stage training strategy combining synthetic identity pairs with video
data. Extensive experiments demonstrate that Magic Mirror effectively balances
identity consistency with natural motion, outperforming existing methods across
multiple metrics while requiring minimal parameters added. The code and model
will be made publicly available at:
https://github.com/dvlab-research/MagicMirror/Summary
AI-Generated Summary