ChatPaper.aiChatPaper

EchoVideo: 다중 모달 특징 융합을 통한 신원 보존 인간 비디오 생성

EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion

January 23, 2025
저자: Jiangchuan Wei, Shiyue Yan, Wenfeng Lin, Boyuan Liu, Renjie Chen, Mingyu Guo
cs.AI

초록

최근 비디오 생성 기술의 발전은 다양한 하위 응용 프로그램에 중대한 영향을 미쳤으며 특히 신원 보존 비디오 생성(IPT2V) 분야에 큰 영향을 미쳤다. 그러나 기존 방법은 "복사-붙여넣기" 아티팩트와 낮은 유사성 문제로 고전했는데, 이는 주로 저수준 얼굴 이미지 정보에 의존하기 때문이다. 이 종속성은 단단한 얼굴 외관과 관련 없는 세부 사항을 반영하는 아티팩트로 이어질 수 있다. 이러한 도전에 대처하기 위해 우리는 EchoVideo를 제안한다. 이는 두 가지 주요 전략을 사용한다: (1) 텍스트로부터 고수준 의미적 특징을 통합하는 Identity Image-Text Fusion Module (IITF)을 사용하여 깨끗한 얼굴 신원 표현을 캡처하고 아티팩트 도입을 피하기 위해 가려지고 자세 및 조명 변화를 버린다; (2) 두 단계 교육 전략을 채택하여 두 번째 단계에서 확률적 방법을 통합하여 얕은 얼굴 정보를 무작위로 활용한다. 이 목표는 얕은 특징이 제공하는 충실성 향상을 균형 있게 유지하면서 그들에 대한 과도한 의존을 완화하는 것이다. 이 전략은 모델이 교육 중에 고수준 특징을 활용하도록 유도하여 궁극적으로 더 견고한 얼굴 신원 표현을 육성한다. EchoVideo는 효과적으로 얼굴 신원을 보존하고 전신의 무결성을 유지한다. 광범위한 실험 결과는 높은 품질, 조절 가능성 및 충실도를 갖는 비디오 생성에서 우수한 결과를 달성한다.
English
Recent advancements in video generation have significantly impacted various downstream applications, particularly in identity-preserving video generation (IPT2V). However, existing methods struggle with "copy-paste" artifacts and low similarity issues, primarily due to their reliance on low-level facial image information. This dependence can result in rigid facial appearances and artifacts reflecting irrelevant details. To address these challenges, we propose EchoVideo, which employs two key strategies: (1) an Identity Image-Text Fusion Module (IITF) that integrates high-level semantic features from text, capturing clean facial identity representations while discarding occlusions, poses, and lighting variations to avoid the introduction of artifacts; (2) a two-stage training strategy, incorporating a stochastic method in the second phase to randomly utilize shallow facial information. The objective is to balance the enhancements in fidelity provided by shallow features while mitigating excessive reliance on them. This strategy encourages the model to utilize high-level features during training, ultimately fostering a more robust representation of facial identities. EchoVideo effectively preserves facial identities and maintains full-body integrity. Extensive experiments demonstrate that it achieves excellent results in generating high-quality, controllability and fidelity videos.

Summary

AI-Generated Summary

PDF72January 24, 2025