ChatPaper.aiChatPaper

확산 트랜스포머를 사용한 비디오 모션 전이

Video Motion Transfer with Diffusion Transformers

December 10, 2024
저자: Alexander Pondaven, Aliaksandr Siarohin, Sergey Tulyakov, Philip Torr, Fabio Pizzati
cs.AI

초록

저희는 DiT(확산 트랜스포머)를 위해 특별히 설계된 새로운 합성 비디오로의 움직임을 전달하는 방법인 DiTFlow를 제안합니다. 우리는 먼저 사전 훈련된 DiT로 참조 비디오를 처리하여 프레임 간 어텐션 맵을 분석하고 Attention Motion Flow(AMF)라고 불리는 패치별 움직임 신호를 추출합니다. 우리는 AMF 손실을 사용하여 최적화 기반의 훈련 없는 방식으로 잠재적인 노이즈 제거 과정을 안내하여 참조 비디오의 움직임을 재현하는 비디오를 생성하기 위해 잠재 변수를 최적화합니다. 또한 우리는 트랜스포머 위치 임베딩에 우리의 최적화 전략을 적용하여 제로샷 움직임 전송 능력을 향상시킵니다. 우리는 DiTFlow를 최근 발표된 방법들과 비교하여 다양한 메트릭 및 인간 평가에서 모두 능가하는 성과를 거두었습니다.
English
We propose DiTFlow, a method for transferring the motion of a reference video to a newly synthesized one, designed specifically for Diffusion Transformers (DiT). We first process the reference video with a pre-trained DiT to analyze cross-frame attention maps and extract a patch-wise motion signal called the Attention Motion Flow (AMF). We guide the latent denoising process in an optimization-based, training-free, manner by optimizing latents with our AMF loss to generate videos reproducing the motion of the reference one. We also apply our optimization strategy to transformer positional embeddings, granting us a boost in zero-shot motion transfer capabilities. We evaluate DiTFlow against recently published methods, outperforming all across multiple metrics and human evaluation.

Summary

AI-Generated Summary

PDF174December 11, 2024