ChatPaper.aiChatPaper

CustomVideoX: 3D 참조 주의 기반 동적 적응을 통한 제로샷 맞춤형 비디오 확산 트랜스포머

CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers

February 10, 2025
저자: D. She, Mushui Liu, Jingxuan Pang, Jin Wang, Zhen Yang, Wanggui He, Guanghao Zhang, Yi Wang, Qihan Huang, Haobin Tang, Yunlong Yu, Siming Fu
cs.AI

초록

이미지 합성에서 맞춤형 생성은 상당한 진전을 이루었지만, 개인화된 비디오 생성은 시간적 불일치와 품질 저하로 인해 여전히 어려움을 겪고 있습니다. 본 논문에서는 참조 이미지로부터 개인화된 비디오 생성을 위한 혁신적인 프레임워크인 CustomVideoX를 소개합니다. CustomVideoX는 비디오 확산 트랜스포머를 활용하여 사전 훈련된 비디오 네트워크를 기반으로 하여 LoRA 매개변수를 훈련함으로써 참조 특징을 추출하여 효율성과 적응성을 모두 보장합니다. 참조 이미지와 비디오 콘텐츠 간의 원활한 상호작용을 촉진하기 위해 우리는 3D 참조 주의를 제안합니다. 이는 공간적 및 시간적 차원을 통해 참조 이미지 특징을 모든 비디오 프레임과 직접적이고 동시에 상호작용할 수 있게 합니다. 추론 중에 생성된 비디오 콘텐츠에 참조 이미지 특징과 텍스트 가이드의 과도한 영향을 완화하기 위해 시간 인식 참조 주의 편향 (TAB) 전략을 구현하여 다양한 시간 단계에서 참조 편향을 동적으로 변조합니다. 더불어, 우리는 Entity Region-Aware Enhancement (ERAE) 모듈을 소개하여 핵심 엔티티 토큰의 고도로 활성화된 영역을 조정하여 참조 특징 주입에 대한 주의 집중을 조정합니다. 개인화된 비디오 생성을 철저히 평가하기 위해 VideoBench라는 새로운 벤치마크를 수립하였으며, 이는 50개 이상의 객체와 100개 이상의 프롬프트로 구성되어 철저한 평가를 제공합니다. 실험 결과는 CustomVideoX가 비디오 일관성과 품질 측면에서 기존 방법들을 크게 능가한다는 것을 보여줍니다.
English
Customized generation has achieved significant progress in image synthesis, yet personalized video generation remains challenging due to temporal inconsistencies and quality degradation. In this paper, we introduce CustomVideoX, an innovative framework leveraging the video diffusion transformer for personalized video generation from a reference image. CustomVideoX capitalizes on pre-trained video networks by exclusively training the LoRA parameters to extract reference features, ensuring both efficiency and adaptability. To facilitate seamless interaction between the reference image and video content, we propose 3D Reference Attention, which enables direct and simultaneous engagement of reference image features with all video frames across spatial and temporal dimensions. To mitigate the excessive influence of reference image features and textual guidance on generated video content during inference, we implement the Time-Aware Reference Attention Bias (TAB) strategy, dynamically modulating reference bias over different time steps. Additionally, we introduce the Entity Region-Aware Enhancement (ERAE) module, aligning highly activated regions of key entity tokens with reference feature injection by adjusting attention bias. To thoroughly evaluate personalized video generation, we establish a new benchmark, VideoBench, comprising over 50 objects and 100 prompts for extensive assessment. Experimental results show that CustomVideoX significantly outperforms existing methods in terms of video consistency and quality.

Summary

AI-Generated Summary

PDF92February 11, 2025