DreamRelation: Beziehungszentrierte Videoanpassung
DreamRelation: Relation-Centric Video Customization
March 10, 2025
Autoren: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Biao Gong, Longxiang Tang, Xiang Wang, Haonan Qiu, Hengjia Li, Shuai Tan, Yingya Zhang, Hongming Shan
cs.AI
Zusammenfassung
Relational Video Customization bezieht sich auf die Erstellung personalisierter Videos, die benutzerdefinierte Beziehungen zwischen zwei Subjekten darstellen, eine entscheidende Aufgabe für das Verständnis von visuellen Inhalten der realen Welt. Während bestehende Methoden die Erscheinungen und Bewegungen von Subjekten personalisieren können, haben sie immer noch Schwierigkeiten mit komplexer relationaler Videopersonalisierung, bei der präzise relationale Modellierung und hohe Generalisierung über Subjektkategorien hinweg entscheidend sind. Die Hauptherausforderung ergibt sich aus den komplexen räumlichen Anordnungen, Layoutvariationen und nuancierten zeitlichen Dynamiken, die in Beziehungen inhärent sind; folglich neigen aktuelle Modelle dazu, irrelevante visuelle Details zu stark zu betonen, anstatt bedeutungsvolle Interaktionen zu erfassen. Um diese Herausforderungen zu bewältigen, schlagen wir DreamRelation vor, einen neuartigen Ansatz, der Beziehungen durch eine kleine Anzahl von Beispielvideos personalisiert und dabei zwei Schlüsselkomponenten nutzt: Relational Decoupling Learning und Relational Dynamics Enhancement. Erstens, in Relational Decoupling Learning, entwirren wir Beziehungen von den Erscheinungen der Subjekte mithilfe von Relation LoRA Triplet und einer hybriden Maskentrainingsstrategie, was eine bessere Generalisierung über verschiedene Beziehungen hinweg gewährleistet. Darüber hinaus bestimmen wir das optimale Design des Relation LoRA Triplets durch die Analyse der unterschiedlichen Rollen der Query-, Key- und Value-Features innerhalb des Aufmerksamkeitsmechanismus von MM-DiT, wodurch DreamRelation das erste relationale Videogenerierungsframework mit erklärbaren Komponenten wird. Zweitens, in Relational Dynamics Enhancement, führen wir den Space-Time Relational Contrastive Loss ein, der die relationale Dynamik priorisiert und gleichzeitig die Abhängigkeit von detaillierten Subjekterscheinungen minimiert. Umfangreiche Experimente zeigen, dass DreamRelation state-of-the-art Methoden in der relationalen Videopersonalisierung übertrifft. Code und Modelle werden öffentlich zugänglich gemacht.
English
Relational video customization refers to the creation of personalized videos
that depict user-specified relations between two subjects, a crucial task for
comprehending real-world visual content. While existing methods can personalize
subject appearances and motions, they still struggle with complex relational
video customization, where precise relational modeling and high generalization
across subject categories are essential. The primary challenge arises from the
intricate spatial arrangements, layout variations, and nuanced temporal
dynamics inherent in relations; consequently, current models tend to
overemphasize irrelevant visual details rather than capturing meaningful
interactions. To address these challenges, we propose DreamRelation, a novel
approach that personalizes relations through a small set of exemplar videos,
leveraging two key components: Relational Decoupling Learning and Relational
Dynamics Enhancement. First, in Relational Decoupling Learning, we disentangle
relations from subject appearances using relation LoRA triplet and hybrid mask
training strategy, ensuring better generalization across diverse relationships.
Furthermore, we determine the optimal design of relation LoRA triplet by
analyzing the distinct roles of the query, key, and value features within
MM-DiT's attention mechanism, making DreamRelation the first relational video
generation framework with explainable components. Second, in Relational
Dynamics Enhancement, we introduce space-time relational contrastive loss,
which prioritizes relational dynamics while minimizing the reliance on detailed
subject appearances. Extensive experiments demonstrate that DreamRelation
outperforms state-of-the-art methods in relational video customization. Code
and models will be made publicly available.Summary
AI-Generated Summary