DreamRelation: Beziehungszentrierte Videoanpassung

Zusammenfassung

Relational Video Customization bezieht sich auf die Erstellung personalisierter Videos, die benutzerdefinierte Beziehungen zwischen zwei Subjekten darstellen, eine entscheidende Aufgabe für das Verständnis von visuellen Inhalten der realen Welt. Während bestehende Methoden die Erscheinungen und Bewegungen von Subjekten personalisieren können, haben sie immer noch Schwierigkeiten mit komplexer relationaler Videopersonalisierung, bei der präzise relationale Modellierung und hohe Generalisierung über Subjektkategorien hinweg entscheidend sind. Die Hauptherausforderung ergibt sich aus den komplexen räumlichen Anordnungen, Layoutvariationen und nuancierten zeitlichen Dynamiken, die in Beziehungen inhärent sind; folglich neigen aktuelle Modelle dazu, irrelevante visuelle Details zu stark zu betonen, anstatt bedeutungsvolle Interaktionen zu erfassen. Um diese Herausforderungen zu bewältigen, schlagen wir DreamRelation vor, einen neuartigen Ansatz, der Beziehungen durch eine kleine Anzahl von Beispielvideos personalisiert und dabei zwei Schlüsselkomponenten nutzt: Relational Decoupling Learning und Relational Dynamics Enhancement. Erstens, in Relational Decoupling Learning, entwirren wir Beziehungen von den Erscheinungen der Subjekte mithilfe von Relation LoRA Triplet und einer hybriden Maskentrainingsstrategie, was eine bessere Generalisierung über verschiedene Beziehungen hinweg gewährleistet. Darüber hinaus bestimmen wir das optimale Design des Relation LoRA Triplets durch die Analyse der unterschiedlichen Rollen der Query-, Key- und Value-Features innerhalb des Aufmerksamkeitsmechanismus von MM-DiT, wodurch DreamRelation das erste relationale Videogenerierungsframework mit erklärbaren Komponenten wird. Zweitens, in Relational Dynamics Enhancement, führen wir den Space-Time Relational Contrastive Loss ein, der die relationale Dynamik priorisiert und gleichzeitig die Abhängigkeit von detaillierten Subjekterscheinungen minimiert. Umfangreiche Experimente zeigen, dass DreamRelation state-of-the-art Methoden in der relationalen Videopersonalisierung übertrifft. Code und Modelle werden öffentlich zugänglich gemacht.

English

Relational video customization refers to the creation of personalized videos that depict user-specified relations between two subjects, a crucial task for comprehending real-world visual content. While existing methods can personalize subject appearances and motions, they still struggle with complex relational video customization, where precise relational modeling and high generalization across subject categories are essential. The primary challenge arises from the intricate spatial arrangements, layout variations, and nuanced temporal dynamics inherent in relations; consequently, current models tend to overemphasize irrelevant visual details rather than capturing meaningful interactions. To address these challenges, we propose DreamRelation, a novel approach that personalizes relations through a small set of exemplar videos, leveraging two key components: Relational Decoupling Learning and Relational Dynamics Enhancement. First, in Relational Decoupling Learning, we disentangle relations from subject appearances using relation LoRA triplet and hybrid mask training strategy, ensuring better generalization across diverse relationships. Furthermore, we determine the optimal design of relation LoRA triplet by analyzing the distinct roles of the query, key, and value features within MM-DiT's attention mechanism, making DreamRelation the first relational video generation framework with explainable components. Second, in Relational Dynamics Enhancement, we introduce space-time relational contrastive loss, which prioritizes relational dynamics while minimizing the reliance on detailed subject appearances. Extensive experiments demonstrate that DreamRelation outperforms state-of-the-art methods in relational video customization. Code and models will be made publicly available.

DreamRelation: Beziehungszentrierte Videoanpassung

DreamRelation: Relation-Centric Video Customization

Zusammenfassung

Summary

Support

Support