ChatPaper.aiChatPaper

MagicInfinite: Erzeugung unendlicher Sprechvideos mit Ihren Worten und Ihrer Stimme

MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice

March 7, 2025
Autoren: Hongwei Yi, Tian Ye, Shitong Shao, Xuancheng Yang, Jiantong Zhao, Hanzhong Guo, Terrance Wang, Qingyu Yin, Zeke Xie, Lei Zhu, Wei Li, Michael Lingelbach, Daquan Zhou
cs.AI

Zusammenfassung

Wir präsentieren MagicInfinite, ein neuartiges Diffusion Transformer (DiT)-Framework, das die traditionellen Grenzen der Porträtanimation überwindet und hochwertige Ergebnisse über diverse Charaktertypen hinweg liefert – realistische Menschen, Ganzkörperfiguren und stilisierte Anime-Charaktere. Es unterstützt verschiedene Gesichtsposen, einschließlich Rückansichten, und animiert einzelne oder mehrere Charaktere mit Eingabemasken zur präzisen Sprecherkennung in Szenen mit mehreren Charakteren. Unser Ansatz adressiert zentrale Herausforderungen mit drei Innovationen: (1) 3D-Vollaufmerksamkeitsmechanismen mit einer Sliding-Window-Rauschunterdrückungsstrategie, die eine unendliche Videogenerierung mit zeitlicher Kohärenz und visueller Qualität über diverse Charakterstile hinweg ermöglichen; (2) ein zweistufiges Curriculum-Learning-Schema, das Audio für Lippensynchronisation, Text für ausdrucksstarke Dynamik und Referenzbilder zur Identitätserhaltung integriert, wodurch eine flexible multimodale Steuerung über lange Sequenzen ermöglicht wird; und (3) regionsspezifische Masken mit adaptiven Verlustfunktionen, um globale textuelle Steuerung und lokale Audioführung auszugleichen, was sprecherspezifische Animationen unterstützt. Die Effizienz wird durch unsere innovativen einheitlichen Schritt- und cfg-Destillationstechniken verbessert, was eine 20-fache Beschleunigung der Inferenzgeschwindigkeit gegenüber dem Basismodell erreicht: die Generierung eines 10-Sekunden-Videos in 540x540p in 10 Sekunden oder 720x720p in 30 Sekunden auf 8 H100-GPUs, ohne Qualitätsverlust. Bewertungen auf unserem neuen Benchmark demonstrieren die Überlegenheit von MagicInfinite in der Audio-Lippen-Synchronisation, Identitätserhaltung und Bewegungsnatürlichkeit über diverse Szenarien hinweg. Es ist öffentlich verfügbar unter https://www.hedra.com/, mit Beispielen auf https://magicinfinite.github.io/.
English
We present MagicInfinite, a novel diffusion Transformer (DiT) framework that overcomes traditional portrait animation limitations, delivering high-fidelity results across diverse character types-realistic humans, full-body figures, and stylized anime characters. It supports varied facial poses, including back-facing views, and animates single or multiple characters with input masks for precise speaker designation in multi-character scenes. Our approach tackles key challenges with three innovations: (1) 3D full-attention mechanisms with a sliding window denoising strategy, enabling infinite video generation with temporal coherence and visual quality across diverse character styles; (2) a two-stage curriculum learning scheme, integrating audio for lip sync, text for expressive dynamics, and reference images for identity preservation, enabling flexible multi-modal control over long sequences; and (3) region-specific masks with adaptive loss functions to balance global textual control and local audio guidance, supporting speaker-specific animations. Efficiency is enhanced via our innovative unified step and cfg distillation techniques, achieving a 20x inference speed boost over the basemodel: generating a 10 second 540x540p video in 10 seconds or 720x720p in 30 seconds on 8 H100 GPUs, without quality loss. Evaluations on our new benchmark demonstrate MagicInfinite's superiority in audio-lip synchronization, identity preservation, and motion naturalness across diverse scenarios. It is publicly available at https://www.hedra.com/, with examples at https://magicinfinite.github.io/.

Summary

AI-Generated Summary

PDF352March 12, 2025