EchoVideo: Identiteitsbehoudende menselijke videogeneratie door multimodale kenmerkfusie

EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion

January 23, 2025
Auteurs: Jiangchuan Wei, Shiyue Yan, Wenfeng Lin, Boyuan Liu, Renjie Chen, Mingyu Guo
cs.AI

Samenvatting

Recente ontwikkelingen in videogeneratie hebben aanzienlijke invloed gehad op verschillende daaropvolgende toepassingen, met name op identiteitsbehoudende videogeneratie (IPT2V). Bestaande methoden worstelen echter met "kopieer-en-plak" artefacten en lage gelijkenisproblemen, voornamelijk vanwege hun afhankelijkheid van laag-niveau gezichtsbeeldinformatie. Deze afhankelijkheid kan resulteren in starre gezichtskenmerken en artefacten die irrelevante details weerspiegelen. Om deze uitdagingen aan te pakken, stellen we EchoVideo voor, dat twee belangrijke strategieën gebruikt: (1) een Identiteitsafbeelding-tekstfusiemodule (IITF) die hoog-niveau semantische kenmerken uit tekst integreert, schone gezichtsidentiteitsrepresentaties vastlegt en occlusies, poses en lichtvariaties verwerpt om de introductie van artefacten te voorkomen; (2) een tweefasige trainingsstrategie, waarbij in de tweede fase een stochastische methode wordt toegepast om willekeurig oppervlakkige gezichtsinformatie te gebruiken. Het doel is om een balans te vinden tussen de verbeteringen in getrouwheid die oppervlakkige kenmerken bieden, terwijl overmatige afhankelijkheid ervan wordt verminderd. Deze strategie moedigt het model aan om tijdens de training hoog-niveau kenmerken te gebruiken, wat uiteindelijk leidt tot een robuustere representatie van gezichtsidentiteiten. EchoVideo behoudt effectief gezichtsidentiteiten en handhaaft de integriteit van het volledige lichaam. Uitgebreide experimenten tonen aan dat het uitstekende resultaten behaalt bij het genereren van hoogwaardige, controleerbare en getrouwe video's.
English
Recent advancements in video generation have significantly impacted various downstream applications, particularly in identity-preserving video generation (IPT2V). However, existing methods struggle with "copy-paste" artifacts and low similarity issues, primarily due to their reliance on low-level facial image information. This dependence can result in rigid facial appearances and artifacts reflecting irrelevant details. To address these challenges, we propose EchoVideo, which employs two key strategies: (1) an Identity Image-Text Fusion Module (IITF) that integrates high-level semantic features from text, capturing clean facial identity representations while discarding occlusions, poses, and lighting variations to avoid the introduction of artifacts; (2) a two-stage training strategy, incorporating a stochastic method in the second phase to randomly utilize shallow facial information. The objective is to balance the enhancements in fidelity provided by shallow features while mitigating excessive reliance on them. This strategy encourages the model to utilize high-level features during training, ultimately fostering a more robust representation of facial identities. EchoVideo effectively preserves facial identities and maintains full-body integrity. Extensive experiments demonstrate that it achieves excellent results in generating high-quality, controllability and fidelity videos.

Summary

AI-Generated Summary

PDF72January 24, 2025