ChatPaper.aiChatPaper

Génération de vidéos pilotée par sujet via la dissociation de l'identité et du mouvement

Subject-driven Video Generation via Disentangled Identity and Motion

April 23, 2025
Auteurs: Daneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai, Jaesik Park, Chong Luo
cs.AI

Résumé

Nous proposons d'entraîner un modèle de génération de vidéos personnalisées centré sur un sujet spécifique en découplant l'apprentissage spécifique au sujet de la dynamique temporelle, sans réglage supplémentaire en mode zero-shot. Une méthode traditionnelle pour la personnalisation de vidéos sans réglage repose souvent sur de grands ensembles de données vidéo annotées, qui sont coûteux en calcul et nécessitent une annotation extensive. Contrairement à cette approche précédente, nous introduisons l'utilisation directe d'un ensemble de données de personnalisation d'images pour entraîner des modèles de personnalisation de vidéos, en factorisant cette personnalisation en deux étapes : (1) l'injection d'identité via un ensemble de données de personnalisation d'images et (2) la préservation de la modélisation temporelle avec un petit ensemble de vidéos non annotées grâce à une méthode d'entraînement image-à-vidéo. De plus, nous employons une suppression aléatoire de tokens d'images avec une initialisation aléatoire d'images lors du réglage fin image-à-vidéo pour atténuer le problème de copier-coller. Pour renforcer l'apprentissage, nous introduisons un basculement stochastique lors de l'optimisation conjointe des caractéristiques spécifiques au sujet et temporelles, atténuant ainsi l'oubli catastrophique. Notre méthode atteint une forte cohérence du sujet et une grande évolutivité, surpassant les modèles existants de personnalisation de vidéos en mode zero-shot, démontrant ainsi l'efficacité de notre cadre.
English
We propose to train a subject-driven customized video generation model through decoupling the subject-specific learning from temporal dynamics in zero-shot without additional tuning. A traditional method for video customization that is tuning-free often relies on large, annotated video datasets, which are computationally expensive and require extensive annotation. In contrast to the previous approach, we introduce the use of an image customization dataset directly on training video customization models, factorizing the video customization into two folds: (1) identity injection through image customization dataset and (2) temporal modeling preservation with a small set of unannotated videos through the image-to-video training method. Additionally, we employ random image token dropping with randomized image initialization during image-to-video fine-tuning to mitigate the copy-and-paste issue. To further enhance learning, we introduce stochastic switching during joint optimization of subject-specific and temporal features, mitigating catastrophic forgetting. Our method achieves strong subject consistency and scalability, outperforming existing video customization models in zero-shot settings, demonstrating the effectiveness of our framework.

Summary

AI-Generated Summary

PDF81April 28, 2025