MagicInfinite: Erzeugung unendlicher Sprechvideos mit Ihren Worten und Ihrer Stimme

Zusammenfassung

Wir präsentieren MagicInfinite, ein neuartiges Diffusion Transformer (DiT)-Framework, das die traditionellen Grenzen der Porträtanimation überwindet und hochwertige Ergebnisse über diverse Charaktertypen hinweg liefert – realistische Menschen, Ganzkörperfiguren und stilisierte Anime-Charaktere. Es unterstützt verschiedene Gesichtsposen, einschließlich Rückansichten, und animiert einzelne oder mehrere Charaktere mit Eingabemasken zur präzisen Sprecherkennung in Szenen mit mehreren Charakteren. Unser Ansatz adressiert zentrale Herausforderungen mit drei Innovationen: (1) 3D-Vollaufmerksamkeitsmechanismen mit einer Sliding-Window-Rauschunterdrückungsstrategie, die eine unendliche Videogenerierung mit zeitlicher Kohärenz und visueller Qualität über diverse Charakterstile hinweg ermöglichen; (2) ein zweistufiges Curriculum-Learning-Schema, das Audio für Lippensynchronisation, Text für ausdrucksstarke Dynamik und Referenzbilder zur Identitätserhaltung integriert, wodurch eine flexible multimodale Steuerung über lange Sequenzen ermöglicht wird; und (3) regionsspezifische Masken mit adaptiven Verlustfunktionen, um globale textuelle Steuerung und lokale Audioführung auszugleichen, was sprecherspezifische Animationen unterstützt. Die Effizienz wird durch unsere innovativen einheitlichen Schritt- und cfg-Destillationstechniken verbessert, was eine 20-fache Beschleunigung der Inferenzgeschwindigkeit gegenüber dem Basismodell erreicht: die Generierung eines 10-Sekunden-Videos in 540x540p in 10 Sekunden oder 720x720p in 30 Sekunden auf 8 H100-GPUs, ohne Qualitätsverlust. Bewertungen auf unserem neuen Benchmark demonstrieren die Überlegenheit von MagicInfinite in der Audio-Lippen-Synchronisation, Identitätserhaltung und Bewegungsnatürlichkeit über diverse Szenarien hinweg. Es ist öffentlich verfügbar unter https://www.hedra.com/, mit Beispielen auf https://magicinfinite.github.io/.

English

We present MagicInfinite, a novel diffusion Transformer (DiT) framework that overcomes traditional portrait animation limitations, delivering high-fidelity results across diverse character types-realistic humans, full-body figures, and stylized anime characters. It supports varied facial poses, including back-facing views, and animates single or multiple characters with input masks for precise speaker designation in multi-character scenes. Our approach tackles key challenges with three innovations: (1) 3D full-attention mechanisms with a sliding window denoising strategy, enabling infinite video generation with temporal coherence and visual quality across diverse character styles; (2) a two-stage curriculum learning scheme, integrating audio for lip sync, text for expressive dynamics, and reference images for identity preservation, enabling flexible multi-modal control over long sequences; and (3) region-specific masks with adaptive loss functions to balance global textual control and local audio guidance, supporting speaker-specific animations. Efficiency is enhanced via our innovative unified step and cfg distillation techniques, achieving a 20x inference speed boost over the basemodel: generating a 10 second 540x540p video in 10 seconds or 720x720p in 30 seconds on 8 H100 GPUs, without quality loss. Evaluations on our new benchmark demonstrate MagicInfinite's superiority in audio-lip synchronization, identity preservation, and motion naturalness across diverse scenarios. It is publicly available at https://www.hedra.com/, with examples at https://magicinfinite.github.io/.

MagicInfinite: Erzeugung unendlicher Sprechvideos mit Ihren Worten und Ihrer Stimme

MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice

Zusammenfassung

Summary

Support

Support