ChatPaper.aiChatPaper

Onderwerpgestuurde Videogeneratie via Ontvlochten Identiteit en Beweging

Subject-driven Video Generation via Disentangled Identity and Motion

April 23, 2025
Auteurs: Daneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai, Jaesik Park, Chong Luo
cs.AI

Samenvatting

Wij stellen voor om een onderwerp-gedreven, aangepast videogeneratiemodel te trainen door het onderwerp-specifieke leren te ontkoppelen van temporele dynamiek in zero-shot zonder aanvullende afstemming. Een traditionele methode voor videopersonalisatie die afstemmingsvrij is, vertrouwt vaak op grote, geannoteerde videodatasets, wat rekenintensief is en uitgebreide annotatie vereist. In tegenstelling tot deze eerdere aanpak introduceren wij het gebruik van een beeldpersonalisatiedataset direct voor het trainen van videopersonalisatiemodellen, waarbij de videopersonalisatie wordt opgesplitst in twee aspecten: (1) identiteitsinjectie via de beeldpersonalisatiedataset en (2) behoud van temporele modellering met een kleine set ongeannoteerde video's via de beeld-naar-video-trainingsmethode. Daarnaast passen wij willekeurige beeldtokenverwijdering toe met gerandomiseerde beeldinitialisatie tijdens beeld-naar-video-finetuning om het copy-and-paste-probleem te verminderen. Om het leren verder te verbeteren, introduceren wij stochastisch schakelen tijdens de gezamenlijke optimalisatie van onderwerp-specifieke en temporele kenmerken, wat catastrofaal vergeten vermindert. Onze methode bereikt sterke onderwerpconsistentie en schaalbaarheid, presteert beter dan bestaande videopersonalisatiemodellen in zero-shot-instellingen, en demonstreert de effectiviteit van ons framework.
English
We propose to train a subject-driven customized video generation model through decoupling the subject-specific learning from temporal dynamics in zero-shot without additional tuning. A traditional method for video customization that is tuning-free often relies on large, annotated video datasets, which are computationally expensive and require extensive annotation. In contrast to the previous approach, we introduce the use of an image customization dataset directly on training video customization models, factorizing the video customization into two folds: (1) identity injection through image customization dataset and (2) temporal modeling preservation with a small set of unannotated videos through the image-to-video training method. Additionally, we employ random image token dropping with randomized image initialization during image-to-video fine-tuning to mitigate the copy-and-paste issue. To further enhance learning, we introduce stochastic switching during joint optimization of subject-specific and temporal features, mitigating catastrophic forgetting. Our method achieves strong subject consistency and scalability, outperforming existing video customization models in zero-shot settings, demonstrating the effectiveness of our framework.

Summary

AI-Generated Summary

PDF92April 28, 2025