비디오 안이도어: 정확한 모션 제어를 통한 고품질 비디오 객체 삽입
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control
January 2, 2025
저자: Yuanpeng Tu, Hao Luo, Xi Chen, Sihui Ji, Xiang Bai, Hengshuang Zhao
cs.AI
초록
비디오 생성 기술이 크게 발전했음에도 불구하고, 주어진 객체를 비디오에 삽입하는 것은 여전히 어려운 과제입니다. 이 어려움은 참조 객체의 외관 세부 사항을 보존하고 동시에 일관된 움직임을 정확하게 모델링하는 데 있습니다. 본 논문에서는 고해상도 세부 사항 보존과 정확한 움직임 제어를 갖춘 제로샷 비디오 객체 삽입 프레임워크인 VideoAnydoor를 제안합니다. 텍스트-비디오 모델을 기반으로 시작하여, 전역 식별자를 주입하는 ID 추출기를 활용하고 전체 움직임을 제어하기 위해 상자 시퀀스를 활용합니다. 세부 외형을 보존하고 세밀한 움직임 제어를 지원하기 위해 픽셀 워퍼를 설계합니다. 이는 임의의 키포인트를 갖는 참조 이미지와 해당 키포인트 궤적을 입력으로 받습니다. 궤적에 따라 픽셀 세부 사항을 왜핑하고, 왜핑된 특징을 확산 U-Net과 융합하여 세부 사항 보존을 향상시키고 사용자가 움직임 궤적을 조작하는 데 도움을 줍니다. 또한 비디오와 정적 이미지를 모두 활용하며 다시 가중 재구성 손실을 포함하는 교육 전략을 제안하여 삽입 품질을 향상시킵니다. VideoAnydoor는 기존 방법보다 상당한 우월성을 보이며 작업 특정 세부 조정 없이 다양한 하향 응용 프로그램(예: 토킹 헤드 생성, 비디오 가상 시착, 다중 영역 편집)을 자연스럽게 지원합니다.
English
Despite significant advancements in video generation, inserting a given
object into videos remains a challenging task. The difficulty lies in
preserving the appearance details of the reference object and accurately
modeling coherent motions at the same time. In this paper, we propose
VideoAnydoor, a zero-shot video object insertion framework with high-fidelity
detail preservation and precise motion control. Starting from a text-to-video
model, we utilize an ID extractor to inject the global identity and leverage a
box sequence to control the overall motion. To preserve the detailed appearance
and meanwhile support fine-grained motion control, we design a pixel warper. It
takes the reference image with arbitrary key-points and the corresponding
key-point trajectories as inputs. It warps the pixel details according to the
trajectories and fuses the warped features with the diffusion U-Net, thus
improving detail preservation and supporting users in manipulating the motion
trajectories. In addition, we propose a training strategy involving both videos
and static images with a reweight reconstruction loss to enhance insertion
quality. VideoAnydoor demonstrates significant superiority over existing
methods and naturally supports various downstream applications (e.g., talking
head generation, video virtual try-on, multi-region editing) without
task-specific fine-tuning.Summary
AI-Generated Summary