ChatPaper.aiChatPaper

Dynamische Konzeptpersonalisierung aus einzelnen Videos

Dynamic Concepts Personalization from Single Videos

February 20, 2025
Autoren: Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman
cs.AI

Zusammenfassung

Die Personalisierung generativer Text-zu-Bild-Modelle hat bemerkenswerte Fortschritte erzielt, doch die Erweiterung dieser Personalisierung auf Text-zu-Video-Modelle stellt einzigartige Herausforderungen dar. Im Gegensatz zu statischen Konzepten bietet die Personalisierung von Text-zu-Video-Modellen das Potenzial, dynamische Konzepte zu erfassen, d. h. Entitäten, die nicht nur durch ihr Aussehen, sondern auch durch ihre Bewegung definiert sind. In diesem Artikel stellen wir Set-and-Sequence vor, ein neuartiges Framework zur Personalisierung von auf Diffusion Transformers (DiTs) basierenden generativen Video-Modellen mit dynamischen Konzepten. Unser Ansatz etabliert einen räumlich-zeitlichen Gewichtsraum innerhalb einer Architektur, die räumliche und zeitliche Merkmale nicht explizit trennt. Dies wird in zwei zentralen Schritten erreicht. Zunächst feintunen wir Low-Rank Adaptation (LoRA)-Schichten mithilfe einer ungeordneten Menge von Frames aus dem Video, um eine Identitäts-LoRA-Basis zu erlernen, die das Erscheinungsbild ohne zeitliche Störungen repräsentiert. Im zweiten Schritt, mit den eingefrorenen Identitäts-LoRAs, erweitern wir ihre Koeffizienten um Bewegungsresiduen und feintunen sie auf der vollständigen Videosequenz, um Bewegungsdynamiken zu erfassen. Unser Set-and-Sequence-Framework führt zu einem räumlich-zeitlichen Gewichtsraum, der dynamische Konzepte effektiv in den Ausgabebereich des Video-Modells einbettet, wodurch beispiellose Bearbeitbarkeit und Kompositionalität ermöglicht werden, während gleichzeitig ein neuer Maßstab für die Personalisierung dynamischer Konzepte gesetzt wird.
English
Personalizing generative text-to-image models has seen remarkable progress, but extending this personalization to text-to-video models presents unique challenges. Unlike static concepts, personalizing text-to-video models has the potential to capture dynamic concepts, i.e., entities defined not only by their appearance but also by their motion. In this paper, we introduce Set-and-Sequence, a novel framework for personalizing Diffusion Transformers (DiTs)-based generative video models with dynamic concepts. Our approach imposes a spatio-temporal weight space within an architecture that does not explicitly separate spatial and temporal features. This is achieved in two key stages. First, we fine-tune Low-Rank Adaptation (LoRA) layers using an unordered set of frames from the video to learn an identity LoRA basis that represents the appearance, free from temporal interference. In the second stage, with the identity LoRAs frozen, we augment their coefficients with Motion Residuals and fine-tune them on the full video sequence, capturing motion dynamics. Our Set-and-Sequence framework results in a spatio-temporal weight space that effectively embeds dynamic concepts into the video model's output domain, enabling unprecedented editability and compositionality while setting a new benchmark for personalizing dynamic concepts.

Summary

AI-Generated Summary

PDF162February 21, 2025