재료: 비디오 확산 트랜스포머를 사용하여 사용자 지정 사진을 혼합하기
Ingredients: Blending Custom Photos with Video Diffusion Transformers
January 3, 2025
저자: Zhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan
cs.AI
초록
본 논문은 비디오 생성을 사용자 정의하기 위한 강력한 프레임워크를 제시하며, 다중 특정 신원(ID) 사진을 비디오 확산 Transformer에 통합하는 Ingredients로 불리는 방법을 제안합니다. 일반적으로, 우리의 방법은 세 가지 주요 모듈로 구성됩니다: (i) 각 인간 ID에 대해 전역 및 지역적 관점에서 다재다능하고 정확한 얼굴 특징을 캡처하는 얼굴 추출기; (ii) 얼굴 임베딩을 비디오 확산 Transformer의 이미지 쿼리의 맥락적 공간으로 매핑하는 다중 스케일 프로젝터; (iii) 다중 ID 임베딩을 동적으로 결합하고 해당 공간-시간 영역에 할당하는 ID 라우터. 정교하게 구성된 텍스트-비디오 데이터셋과 다단계 훈련 프로토콜을 활용하여, Ingredients는 사용자 지정 사진을 동적이고 개인화된 비디오 콘텐츠로 변환하는 데 우수한 성능을 보입니다. 질적 평가는 제안된 방법의 장점을 강조하며, 기존 방법과 비교하여 Transformer 기반 아키텍처에서 더 효과적인 생성 비디오 제어 도구로서의 중요한 발전으로 위치시킵니다. 데이터, 코드 및 모델 가중치는 다음에서 공개적으로 이용 가능합니다: https://github.com/feizc/Ingredients.
English
This paper presents a powerful framework to customize video creations by
incorporating multiple specific identity (ID) photos, with video diffusion
Transformers, referred to as Ingredients. Generally, our method
consists of three primary modules: (i) a facial extractor that
captures versatile and precise facial features for each human ID from both
global and local perspectives; (ii) a multi-scale projector that maps
face embeddings into the contextual space of image query in video diffusion
transformers; (iii) an ID router that dynamically combines and
allocates multiple ID embedding to the corresponding space-time regions.
Leveraging a meticulously curated text-video dataset and a multi-stage training
protocol, Ingredients demonstrates superior performance in turning
custom photos into dynamic and personalized video content. Qualitative
evaluations highlight the advantages of proposed method, positioning it as a
significant advancement toward more effective generative video control tools in
Transformer-based architecture, compared to existing methods. The data, code,
and model weights are publicly available at:
https://github.com/feizc/Ingredients.Summary
AI-Generated Summary