ChatPaper.aiChatPaper

비디오 생성에서의 다중 주제 오픈셋 개인화

Multi-subject Open-set Personalization in Video Generation

January 10, 2025
저자: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Yuwei Fang, Kwot Sin Lee, Ivan Skorokhodov, Kfir Aberman, Jun-Yan Zhu, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI

초록

비디오 개인화 방법을 사용하면 사람, 애완동물 및 장소와 같은 특정 개념을 포함한 비디오를 합성할 수 있습니다. 그러나 기존 방법은 종종 제한된 도메인에 집중하거나 주제당 최적화에 시간이 많이 소요되거나 단일 주제만 지원하는 경우가 많습니다. 저희는 Video Alchemist를 제안합니다. 이는 전경 객체와 배경 모두에 대한 다중 주제, 오픈셋 개인화 기능이 내장된 비디오 모델로, 테스트 시간 최적화가 필요 없도록 합니다. 저희 모델은 각 조건부 참조 이미지와 해당 주제 수준의 텍스트 프롬프트를 교차 주의층과 융합하는 새로운 확산 트랜스포머 모듈에 기반합니다. 이러한 대규모 모델을 개발하는 데는 데이터셋과 평가라는 두 가지 주요 도전 과제가 있습니다. 먼저, 참조 이미지와 비디오의 짝 데이터셋을 수집하는 것은 매우 어렵기 때문에 대상 비디오의 클립을 합성하기 위해 선택된 비디오 프레임을 샘플링합니다. 그러나 모델은 참조 프레임을 제공하여 훈련 비디오의 잡음을 쉽게 제거할 수 있지만 새로운 맥락으로의 일반화에 실패합니다. 이 문제를 완화하기 위해 우리는 다양한 이미지 증강을 사용하는 새로운 자동 데이터 구축 파이프라인을 설계했습니다. 둘째, 오픈셋 비디오 개인화를 평가하는 것 자체가 도전입니다. 이를 해결하기 위해 정확한 주제 충실도에 중점을 둔 다양한 개인화 시나리오를 지원하는 개인화 벤치마크를 소개합니다. 마지막으로, 저희의 방법이 양적 및 질적 평가 모두에서 기존 개인화 방법을 크게 능가한다는 광범위한 실험 결과를 보여줍니다.
English
Video personalization methods allow us to synthesize videos with specific concepts such as people, pets, and places. However, existing methods often focus on limited domains, require time-consuming optimization per subject, or support only a single subject. We present Video Alchemist - a video model with built-in multi-subject, open-set personalization capabilities for both foreground objects and background, eliminating the need for time-consuming test-time optimization. Our model is built on a new Diffusion Transformer module that fuses each conditional reference image and its corresponding subject-level text prompt with cross-attention layers. Developing such a large model presents two main challenges: dataset and evaluation. First, as paired datasets of reference images and videos are extremely hard to collect, we sample selected video frames as reference images and synthesize a clip of the target video. However, while models can easily denoise training videos given reference frames, they fail to generalize to new contexts. To mitigate this issue, we design a new automatic data construction pipeline with extensive image augmentations. Second, evaluating open-set video personalization is a challenge in itself. To address this, we introduce a personalization benchmark that focuses on accurate subject fidelity and supports diverse personalization scenarios. Finally, our extensive experiments show that our method significantly outperforms existing personalization methods in both quantitative and qualitative evaluations.

Summary

AI-Generated Summary

PDF142January 13, 2025