ChatPaper.aiChatPaper

주파수 분해를 통한 신원 보존 텍스트 대 동영상 생성

Identity-Preserving Text-to-Video Generation by Frequency Decomposition

November 26, 2024
저자: Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan
cs.AI

초록

아이덴티티 보존 텍스트-비디오(IPT2V) 생성은 일관된 인간 아이덴티티를 유지하면서 고품질 비디오를 생성하는 것을 목표로 합니다. 이는 비디오 생성에서 중요한 작업이지만, 생성 모델에 대한 여전히 해결되지 않은 문제입니다. 본 논문은 문헌에서 해결되지 않은 두 가지 방향으로 IPT2V의 기술적 경계를 확장합니다: (1) 세세한 사례별 파인튜닝 없이 튜닝이 필요 없는 파이프라인, 그리고 (2) 주파수 인식 휴리스틱 아이덴티티 보존 DiT 기반 제어 체계. 우리는 ConsisID를 제안합니다. 이는 튜닝이 필요 없는 DiT 기반 제어 가능한 IPT2V 모델로 생성된 비디오에서 인간 아이덴티티를 일관되게 유지합니다. 확산 트랜스포머의 주파수 분석 선행 연구에서 영감을 받아, 이는 얼굴 특징을 저주파수 전역 특징과 고주파수 내재적 특징으로 분해할 수 있는 주파수 도메인에서 아이덴티티 제어 신호를 사용합니다. 먼저, 저주파수 관점에서, 우리는 전역 얼굴 추출기를 소개합니다. 이는 참조 이미지와 얼굴 주요 지점을 잠재 공간에 부호화하여 저주파수 정보가 풍부한 특징을 생성합니다. 이러한 특징은 네트워크의 얕은 레이어에 통합되어 DiT와 관련된 훈련 도전을 완화시킵니다. 둘째, 고주파수 관점에서, 우리는 고주파수 세부 사항을 포착하고 트랜스포머 블록에 주입하는 지역 얼굴 추출기를 설계하여 모델이 섬세한 특징을 보존하는 능력을 향상시킵니다. 주파수 정보를 활용한 계층적 훈련 전략을 제안하여 아이덴티티 보존을 위해 주파수 정보를 활용하며, 일반적으로 사전 훈련된 비디오 생성 모델을 IPT2V 모델로 변환합니다. 광범위한 실험 결과는 우리의 주파수 인식 휴리스틱 체계가 DiT 기반 모델에 대한 최적의 제어 솔루션을 제공함을 보여줍니다. 이 체계 덕분에 우리의 ConsisID는 고품질의 아이덴티티 보존 비디오를 생성하며, 더 효과적인 IPT2V로 나아가는 발전을 이루고 있습니다.
English
Identity-preserving text-to-video (IPT2V) generation aims to create high-fidelity videos with consistent human identity. It is an important task in video generation but remains an open problem for generative models. This paper pushes the technical frontier of IPT2V in two directions that have not been resolved in literature: (1) A tuning-free pipeline without tedious case-by-case finetuning, and (2) A frequency-aware heuristic identity-preserving DiT-based control scheme. We propose ConsisID, a tuning-free DiT-based controllable IPT2V model to keep human identity consistent in the generated video. Inspired by prior findings in frequency analysis of diffusion transformers, it employs identity-control signals in the frequency domain, where facial features can be decomposed into low-frequency global features and high-frequency intrinsic features. First, from a low-frequency perspective, we introduce a global facial extractor, which encodes reference images and facial key points into a latent space, generating features enriched with low-frequency information. These features are then integrated into shallow layers of the network to alleviate training challenges associated with DiT. Second, from a high-frequency perspective, we design a local facial extractor to capture high-frequency details and inject them into transformer blocks, enhancing the model's ability to preserve fine-grained features. We propose a hierarchical training strategy to leverage frequency information for identity preservation, transforming a vanilla pre-trained video generation model into an IPT2V model. Extensive experiments demonstrate that our frequency-aware heuristic scheme provides an optimal control solution for DiT-based models. Thanks to this scheme, our ConsisID generates high-quality, identity-preserving videos, making strides towards more effective IPT2V.

Summary

AI-Generated Summary

PDF133November 28, 2024