Generazione di Video da Testo Preservando l'Identità tramite Decomposizione in Frequenza
Identity-Preserving Text-to-Video Generation by Frequency Decomposition
November 26, 2024
Autori: Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan
cs.AI
Abstract
La generazione di video da testo a video (IPT2V) che preserva l'identità mira a creare video ad alta fedeltà con un'identità umana coerente. Si tratta di un compito importante nella generazione di video, ma rimane un problema aperto per i modelli generativi. Questo articolo spinge il confine tecnico dell'IPT2V in due direzioni che non sono state risolte nella letteratura: (1) Un flusso di lavoro senza sintonizzazione senza noiosi aggiustamenti caso per caso e (2) Uno schema di controllo basato su DiT che preserva l'identità in modo euristico consapevole della frequenza. Proponiamo ConsisID, un modello IPT2V controllabile basato su DiT senza sintonizzazione per mantenere l'identità umana coerente nel video generato. Ispirato alle scoperte precedenti nell'analisi delle frequenze dei trasformatori di diffusione, impiega segnali di controllo dell'identità nel dominio delle frequenze, dove le caratteristiche facciali possono essere decomposte in caratteristiche globali a bassa frequenza e caratteristiche intrinseche ad alta frequenza. In primo luogo, da una prospettiva a bassa frequenza, introduciamo un estrattore facciale globale, che codifica immagini di riferimento e punti chiave del viso in uno spazio latente, generando caratteristiche arricchite di informazioni a bassa frequenza. Queste caratteristiche vengono poi integrate nei livelli superficiali della rete per alleviare le sfide di addestramento associate a DiT. In secondo luogo, da una prospettiva ad alta frequenza, progettiamo un estrattore facciale locale per catturare dettagli ad alta frequenza e iniettarli nei blocchi del trasformatore, potenziando la capacità del modello di preservare caratteristiche dettagliate. Proponiamo una strategia di addestramento gerarchico per sfruttare le informazioni sulla frequenza per la conservazione dell'identità, trasformando un modello di generazione video preaddestrato di base in un modello IPT2V. Estesi esperimenti dimostrano che il nostro schema euristico consapevole della frequenza fornisce una soluzione di controllo ottimale per i modelli basati su DiT. Grazie a questo schema, il nostro ConsisID genera video di alta qualità che preservano l'identità, facendo progressi verso IPT2V più efficaci.
English
Identity-preserving text-to-video (IPT2V) generation aims to create
high-fidelity videos with consistent human identity. It is an important task in
video generation but remains an open problem for generative models. This paper
pushes the technical frontier of IPT2V in two directions that have not been
resolved in literature: (1) A tuning-free pipeline without tedious case-by-case
finetuning, and (2) A frequency-aware heuristic identity-preserving DiT-based
control scheme. We propose ConsisID, a tuning-free DiT-based controllable IPT2V
model to keep human identity consistent in the generated video. Inspired by
prior findings in frequency analysis of diffusion transformers, it employs
identity-control signals in the frequency domain, where facial features can be
decomposed into low-frequency global features and high-frequency intrinsic
features. First, from a low-frequency perspective, we introduce a global facial
extractor, which encodes reference images and facial key points into a latent
space, generating features enriched with low-frequency information. These
features are then integrated into shallow layers of the network to alleviate
training challenges associated with DiT. Second, from a high-frequency
perspective, we design a local facial extractor to capture high-frequency
details and inject them into transformer blocks, enhancing the model's ability
to preserve fine-grained features. We propose a hierarchical training strategy
to leverage frequency information for identity preservation, transforming a
vanilla pre-trained video generation model into an IPT2V model. Extensive
experiments demonstrate that our frequency-aware heuristic scheme provides an
optimal control solution for DiT-based models. Thanks to this scheme, our
ConsisID generates high-quality, identity-preserving videos, making strides
towards more effective IPT2V.Summary
AI-Generated Summary