Subjektgesteuerte Videogenerierung durch Entkopplung von Identität und Bewegung
Subject-driven Video Generation via Disentangled Identity and Motion
April 23, 2025
Autoren: Daneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai, Jaesik Park, Chong Luo
cs.AI
Zusammenfassung
Wir schlagen vor, ein subjektgetriebenes, maßgeschneidertes Videogenerierungsmodell zu trainieren, indem wir das subjektspezifische Lernen von den zeitlichen Dynamiken in Zero-Shot ohne zusätzliche Feinabstimmung entkoppeln. Eine traditionelle Methode für die Videopersonalisierung, die ohne Feinabstimmung auskommt, stützt sich oft auf große, annotierte Videodatensätze, die rechenintensiv sind und umfangreiche Annotationen erfordern. Im Gegensatz zu diesem Ansatz führen wir die Verwendung eines Bildpersonalisierungsdatensatzes direkt für das Training von Videopersonalisierungsmodellen ein, wobei wir die Videopersonalisierung in zwei Schritte aufteilen: (1) Identitätsinjektion durch den Bildpersonalisierungsdatensatz und (2) Bewahrung der zeitlichen Modellierung mit einer kleinen Menge nicht annotierter Videos durch die Bild-zu-Video-Trainingsmethode. Zusätzlich setzen wir während der Bild-zu-Video-Feinabstimmung zufälliges Image-Token-Dropping mit randomisierter Bildinitialisierung ein, um das Copy-and-Paste-Problem zu mildern. Um das Lernen weiter zu verbessern, führen wir ein stochastisches Switching während der gemeinsamen Optimierung von subjektspezifischen und zeitlichen Merkmalen ein, um katastrophales Vergessen zu verhindern. Unsere Methode erreicht eine starke Subjektkonsistenz und Skalierbarkeit und übertrifft bestehende Videopersonalisierungsmodelle in Zero-Shot-Szenarien, was die Effektivität unseres Frameworks demonstriert.
English
We propose to train a subject-driven customized video generation model
through decoupling the subject-specific learning from temporal dynamics in
zero-shot without additional tuning. A traditional method for video
customization that is tuning-free often relies on large, annotated video
datasets, which are computationally expensive and require extensive annotation.
In contrast to the previous approach, we introduce the use of an image
customization dataset directly on training video customization models,
factorizing the video customization into two folds: (1) identity injection
through image customization dataset and (2) temporal modeling preservation with
a small set of unannotated videos through the image-to-video training method.
Additionally, we employ random image token dropping with randomized image
initialization during image-to-video fine-tuning to mitigate the copy-and-paste
issue. To further enhance learning, we introduce stochastic switching during
joint optimization of subject-specific and temporal features, mitigating
catastrophic forgetting. Our method achieves strong subject consistency and
scalability, outperforming existing video customization models in zero-shot
settings, demonstrating the effectiveness of our framework.Summary
AI-Generated Summary