Multithemen-Open-Set-Personalisierung in der Videogenerierung

Zusammenfassung

Methoden zur Video-Personalisierung ermöglichen es uns, Videos mit spezifischen Konzepten wie Personen, Haustieren und Orten zu synthetisieren. Allerdings konzentrieren sich bestehende Methoden häufig auf begrenzte Bereiche, erfordern zeitaufwändige Optimierungen pro Thema oder unterstützen nur ein einziges Thema. Wir stellen Video Alchemist vor - ein Videomodell mit integrierten Multi-Subjekt-, Open-Set-Personalisierungsfähigkeiten sowohl für Vordergrundobjekte als auch Hintergrund, was die Notwendigkeit für zeitaufwändige Optimierungen zur Testzeit beseitigt. Unser Modell basiert auf einem neuen Diffusion Transformer-Modul, das jedes bedingte Referenzbild und seinen entsprechenden textbasierten Themenprompt mit Kreuz-Aufmerksamkeitsschichten verschmilzt. Die Entwicklung eines solch großen Modells birgt zwei Hauptprobleme: Datensatz und Evaluation. Zunächst sind gepaarte Datensätze von Referenzbildern und Videos extrem schwer zu sammeln, daher wählen wir ausgewählte Videoframes als Referenzbilder aus und synthetisieren einen Ausschnitt des Zielvideos. Allerdings scheitern Modelle daran, sich auf neue Kontexte zu verallgemeinern, obwohl sie Trainingsvideos leicht von Rauschen befreien können, das durch Referenzbilder verursacht wird. Um dieses Problem zu mildern, entwerfen wir eine neue automatische Datenkonstruktionspipeline mit umfangreichen Bildaugmentationen. Zweitens ist die Bewertung der Open-Set-Video-Personalisierung an sich eine Herausforderung. Um dies anzugehen, führen wir einen Personalisierungs-Benchmark ein, der sich auf eine präzise Themenfidelität konzentriert und verschiedene Personalisierungsszenarien unterstützt. Schließlich zeigen unsere umfangreichen Experimente, dass unsere Methode sowohl in quantitativen als auch qualitativen Bewertungen signifikant besser abschneidet als bestehende Personalisierungsmethoden.

English

Video personalization methods allow us to synthesize videos with specific concepts such as people, pets, and places. However, existing methods often focus on limited domains, require time-consuming optimization per subject, or support only a single subject. We present Video Alchemist - a video model with built-in multi-subject, open-set personalization capabilities for both foreground objects and background, eliminating the need for time-consuming test-time optimization. Our model is built on a new Diffusion Transformer module that fuses each conditional reference image and its corresponding subject-level text prompt with cross-attention layers. Developing such a large model presents two main challenges: dataset and evaluation. First, as paired datasets of reference images and videos are extremely hard to collect, we sample selected video frames as reference images and synthesize a clip of the target video. However, while models can easily denoise training videos given reference frames, they fail to generalize to new contexts. To mitigate this issue, we design a new automatic data construction pipeline with extensive image augmentations. Second, evaluating open-set video personalization is a challenge in itself. To address this, we introduce a personalization benchmark that focuses on accurate subject fidelity and supports diverse personalization scenarios. Finally, our extensive experiments show that our method significantly outperforms existing personalization methods in both quantitative and qualitative evaluations.

Multithemen-Open-Set-Personalisierung in der Videogenerierung

Multi-subject Open-set Personalization in Video Generation

Zusammenfassung

Support