ChatPaper.aiChatPaper

EchoVideo: Identitätserhaltende menschliche Videogenerierung durch multimodale Merkmalsfusion

EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion

January 23, 2025
Autoren: Jiangchuan Wei, Shiyue Yan, Wenfeng Lin, Boyuan Liu, Renjie Chen, Mingyu Guo
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte in der Videogenerierung verschiedene nachgelagerte Anwendungen erheblich beeinflusst, insbesondere in der Generierung von Videos zur Identitätserhaltung (IPT2V). Allerdings haben bestehende Methoden Schwierigkeiten mit "Copy-Paste"-Artefakten und geringen Ähnlichkeitsproblemen, hauptsächlich aufgrund ihrer Abhängigkeit von niedrigstufigen Gesichtsbildinformationen. Diese Abhängigkeit kann zu starren Gesichtsauftritten und Artefakten führen, die irrelevante Details widerspiegeln. Um diesen Herausforderungen zu begegnen, schlagen wir EchoVideo vor, das zwei Schlüsselstrategien verwendet: (1) ein Identitätsbild-Text-Fusionsmodul (IITF), das hochstufige semantische Merkmale aus Text integriert, saubere Gesichtsidentitätsdarstellungen erfasst und dabei Okklusionen, Posen und Beleuchtungsvariationen verwirft, um die Einführung von Artefakten zu vermeiden; (2) eine zweistufige Schulungsstrategie, die in der zweiten Phase eine stochastische Methode einbezieht, um oberflächliche Gesichtsinformationen zufällig zu nutzen. Das Ziel besteht darin, die Verbesserungen in der Treue, die oberflächliche Merkmale bieten, auszugleichen, während ein übermäßiges Vertrauen auf sie gemildert wird. Diese Strategie ermutigt das Modell, während des Trainings hochstufige Merkmale zu nutzen und fördert letztendlich eine robustere Darstellung von Gesichtsidentitäten. EchoVideo bewahrt Gesichtsidentitäten effektiv und erhält die Integrität des gesamten Körpers. Umfangreiche Experimente zeigen, dass es ausgezeichnete Ergebnisse bei der Generierung von hochwertigen, steuerbaren und treuen Videos erzielt.
English
Recent advancements in video generation have significantly impacted various downstream applications, particularly in identity-preserving video generation (IPT2V). However, existing methods struggle with "copy-paste" artifacts and low similarity issues, primarily due to their reliance on low-level facial image information. This dependence can result in rigid facial appearances and artifacts reflecting irrelevant details. To address these challenges, we propose EchoVideo, which employs two key strategies: (1) an Identity Image-Text Fusion Module (IITF) that integrates high-level semantic features from text, capturing clean facial identity representations while discarding occlusions, poses, and lighting variations to avoid the introduction of artifacts; (2) a two-stage training strategy, incorporating a stochastic method in the second phase to randomly utilize shallow facial information. The objective is to balance the enhancements in fidelity provided by shallow features while mitigating excessive reliance on them. This strategy encourages the model to utilize high-level features during training, ultimately fostering a more robust representation of facial identities. EchoVideo effectively preserves facial identities and maintains full-body integrity. Extensive experiments demonstrate that it achieves excellent results in generating high-quality, controllability and fidelity videos.

Summary

AI-Generated Summary

PDF72January 24, 2025