MagicID: Hybride Präferenzoptimierung für ID-konsistente und dynamikerhaltende Videopersonalisierung
MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization
March 16, 2025
Autoren: Hengjia Li, Lifan Jiang, Xi Xiao, Tianyang Wang, Hongwei Yi, Boxi Wu, Deng Cai
cs.AI
Zusammenfassung
Die Video-Identitätsanpassung zielt darauf ab, hochauflösende Videos zu erzeugen, die eine konsistente Identität beibehalten und signifikante Dynamik aufweisen, basierend auf Referenzbildern der Benutzer. Bestehende Ansätze stehen jedoch vor zwei zentralen Herausforderungen: Identitätsverlust über längere Videolängen und reduzierte Dynamik während des Trainings, hauptsächlich aufgrund ihrer Abhängigkeit von traditionellem Selbstrekonstruktionstraining mit statischen Bildern. Um diese Probleme zu lösen, stellen wir MagicID vor, ein neuartiges Framework, das darauf ausgelegt ist, die Erzeugung von identitätskonsistenten und dynamisch reichhaltigen Videos, die auf Benutzerpräferenzen zugeschnitten sind, direkt zu fördern. Konkret schlagen wir vor, paarweise Präferenz-Videodaten mit expliziten Identitäts- und Dynamikbelohnungen für das Präferenzlernen zu konstruieren, anstatt am traditionellen Selbstrekonstruktionsansatz festzuhalten. Um die Einschränkungen von angepassten Präferenzdaten zu bewältigen, führen wir eine hybride Sampling-Strategie ein. Dieser Ansatz priorisiert zunächst die Identitätserhaltung durch die Nutzung statischer Videos, die aus Referenzbildern abgeleitet werden, und verbessert dann die Qualität der dynamischen Bewegung in den generierten Videos mithilfe einer Frontier-basierten Sampling-Methode. Durch die Verwendung dieser hybriden Präferenzpaare optimieren wir das Modell, um es an die Belohnungsunterschiede zwischen Paaren von angepassten Präferenzen auszurichten. Umfangreiche Experimente zeigen, dass MagicID erfolgreich eine konsistente Identität und natürliche Dynamik erreicht und dabei bestehende Methoden in verschiedenen Metriken übertrifft.
English
Video identity customization seeks to produce high-fidelity videos that
maintain consistent identity and exhibit significant dynamics based on users'
reference images. However, existing approaches face two key challenges:
identity degradation over extended video length and reduced dynamics during
training, primarily due to their reliance on traditional self-reconstruction
training with static images. To address these issues, we introduce
MagicID, a novel framework designed to directly promote the
generation of identity-consistent and dynamically rich videos tailored to user
preferences. Specifically, we propose constructing pairwise preference video
data with explicit identity and dynamic rewards for preference learning,
instead of sticking to the traditional self-reconstruction. To address the
constraints of customized preference data, we introduce a hybrid sampling
strategy. This approach first prioritizes identity preservation by leveraging
static videos derived from reference images, then enhances dynamic motion
quality in the generated videos using a Frontier-based sampling method. By
utilizing these hybrid preference pairs, we optimize the model to align with
the reward differences between pairs of customized preferences. Extensive
experiments show that MagicID successfully achieves consistent identity and
natural dynamics, surpassing existing methods across various metrics.Summary
AI-Generated Summary