Multithemen-Open-Set-Personalisierung in der Videogenerierung
Multi-subject Open-set Personalization in Video Generation
January 10, 2025
Autoren: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Yuwei Fang, Kwot Sin Lee, Ivan Skorokhodov, Kfir Aberman, Jun-Yan Zhu, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI
Zusammenfassung
Methoden zur Video-Personalisierung ermöglichen es uns, Videos mit spezifischen Konzepten wie Personen, Haustieren und Orten zu synthetisieren. Allerdings konzentrieren sich bestehende Methoden häufig auf begrenzte Bereiche, erfordern zeitaufwändige Optimierungen pro Thema oder unterstützen nur ein einziges Thema. Wir stellen Video Alchemist vor - ein Videomodell mit integrierten Multi-Subjekt-, Open-Set-Personalisierungsfähigkeiten sowohl für Vordergrundobjekte als auch Hintergrund, was die Notwendigkeit für zeitaufwändige Optimierungen zur Testzeit beseitigt. Unser Modell basiert auf einem neuen Diffusion Transformer-Modul, das jedes bedingte Referenzbild und seinen entsprechenden textbasierten Themenprompt mit Kreuz-Aufmerksamkeitsschichten verschmilzt. Die Entwicklung eines solch großen Modells birgt zwei Hauptprobleme: Datensatz und Evaluation. Zunächst sind gepaarte Datensätze von Referenzbildern und Videos extrem schwer zu sammeln, daher wählen wir ausgewählte Videoframes als Referenzbilder aus und synthetisieren einen Ausschnitt des Zielvideos. Allerdings scheitern Modelle daran, sich auf neue Kontexte zu verallgemeinern, obwohl sie Trainingsvideos leicht von Rauschen befreien können, das durch Referenzbilder verursacht wird. Um dieses Problem zu mildern, entwerfen wir eine neue automatische Datenkonstruktionspipeline mit umfangreichen Bildaugmentationen. Zweitens ist die Bewertung der Open-Set-Video-Personalisierung an sich eine Herausforderung. Um dies anzugehen, führen wir einen Personalisierungs-Benchmark ein, der sich auf eine präzise Themenfidelität konzentriert und verschiedene Personalisierungsszenarien unterstützt. Schließlich zeigen unsere umfangreichen Experimente, dass unsere Methode sowohl in quantitativen als auch qualitativen Bewertungen signifikant besser abschneidet als bestehende Personalisierungsmethoden.
English
Video personalization methods allow us to synthesize videos with specific
concepts such as people, pets, and places. However, existing methods often
focus on limited domains, require time-consuming optimization per subject, or
support only a single subject. We present Video Alchemist - a video model
with built-in multi-subject, open-set personalization capabilities for both
foreground objects and background, eliminating the need for time-consuming
test-time optimization. Our model is built on a new Diffusion Transformer
module that fuses each conditional reference image and its corresponding
subject-level text prompt with cross-attention layers. Developing such a large
model presents two main challenges: dataset and evaluation. First, as paired
datasets of reference images and videos are extremely hard to collect, we
sample selected video frames as reference images and synthesize a clip of the
target video. However, while models can easily denoise training videos given
reference frames, they fail to generalize to new contexts. To mitigate this
issue, we design a new automatic data construction pipeline with extensive
image augmentations. Second, evaluating open-set video personalization is a
challenge in itself. To address this, we introduce a personalization benchmark
that focuses on accurate subject fidelity and supports diverse personalization
scenarios. Finally, our extensive experiments show that our method
significantly outperforms existing personalization methods in both quantitative
and qualitative evaluations.Summary
AI-Generated Summary