Subjektgesteuerte Videogenerierung durch Entkopplung von Identität und Bewegung

Zusammenfassung

Wir schlagen vor, ein subjektgetriebenes, maßgeschneidertes Videogenerierungsmodell zu trainieren, indem wir das subjektspezifische Lernen von den zeitlichen Dynamiken in Zero-Shot ohne zusätzliche Feinabstimmung entkoppeln. Eine traditionelle Methode für die Videopersonalisierung, die ohne Feinabstimmung auskommt, stützt sich oft auf große, annotierte Videodatensätze, die rechenintensiv sind und umfangreiche Annotationen erfordern. Im Gegensatz zu diesem Ansatz führen wir die Verwendung eines Bildpersonalisierungsdatensatzes direkt für das Training von Videopersonalisierungsmodellen ein, wobei wir die Videopersonalisierung in zwei Schritte aufteilen: (1) Identitätsinjektion durch den Bildpersonalisierungsdatensatz und (2) Bewahrung der zeitlichen Modellierung mit einer kleinen Menge nicht annotierter Videos durch die Bild-zu-Video-Trainingsmethode. Zusätzlich setzen wir während der Bild-zu-Video-Feinabstimmung zufälliges Image-Token-Dropping mit randomisierter Bildinitialisierung ein, um das Copy-and-Paste-Problem zu mildern. Um das Lernen weiter zu verbessern, führen wir ein stochastisches Switching während der gemeinsamen Optimierung von subjektspezifischen und zeitlichen Merkmalen ein, um katastrophales Vergessen zu verhindern. Unsere Methode erreicht eine starke Subjektkonsistenz und Skalierbarkeit und übertrifft bestehende Videopersonalisierungsmodelle in Zero-Shot-Szenarien, was die Effektivität unseres Frameworks demonstriert.

English

We propose to train a subject-driven customized video generation model through decoupling the subject-specific learning from temporal dynamics in zero-shot without additional tuning. A traditional method for video customization that is tuning-free often relies on large, annotated video datasets, which are computationally expensive and require extensive annotation. In contrast to the previous approach, we introduce the use of an image customization dataset directly on training video customization models, factorizing the video customization into two folds: (1) identity injection through image customization dataset and (2) temporal modeling preservation with a small set of unannotated videos through the image-to-video training method. Additionally, we employ random image token dropping with randomized image initialization during image-to-video fine-tuning to mitigate the copy-and-paste issue. To further enhance learning, we introduce stochastic switching during joint optimization of subject-specific and temporal features, mitigating catastrophic forgetting. Our method achieves strong subject consistency and scalability, outperforming existing video customization models in zero-shot settings, demonstrating the effectiveness of our framework.

Subjektgesteuerte Videogenerierung durch Entkopplung von Identität und Bewegung

Subject-driven Video Generation via Disentangled Identity and Motion

Zusammenfassung

Summary

Support

Support