Generazione di Video da Testo Preservando l'Identità tramite Decomposizione in Frequenza

Identity-Preserving Text-to-Video Generation by Frequency Decomposition

November 26, 2024
Autori: Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan
cs.AI

Abstract

La generazione di video da testo a video (IPT2V) che preserva l'identità mira a creare video ad alta fedeltà con un'identità umana coerente. Si tratta di un compito importante nella generazione di video, ma rimane un problema aperto per i modelli generativi. Questo articolo spinge il confine tecnico dell'IPT2V in due direzioni che non sono state risolte nella letteratura: (1) Un flusso di lavoro senza sintonizzazione senza noiosi aggiustamenti caso per caso e (2) Uno schema di controllo basato su DiT che preserva l'identità in modo euristico consapevole della frequenza. Proponiamo ConsisID, un modello IPT2V controllabile basato su DiT senza sintonizzazione per mantenere l'identità umana coerente nel video generato. Ispirato alle scoperte precedenti nell'analisi delle frequenze dei trasformatori di diffusione, impiega segnali di controllo dell'identità nel dominio delle frequenze, dove le caratteristiche facciali possono essere decomposte in caratteristiche globali a bassa frequenza e caratteristiche intrinseche ad alta frequenza. In primo luogo, da una prospettiva a bassa frequenza, introduciamo un estrattore facciale globale, che codifica immagini di riferimento e punti chiave del viso in uno spazio latente, generando caratteristiche arricchite di informazioni a bassa frequenza. Queste caratteristiche vengono poi integrate nei livelli superficiali della rete per alleviare le sfide di addestramento associate a DiT. In secondo luogo, da una prospettiva ad alta frequenza, progettiamo un estrattore facciale locale per catturare dettagli ad alta frequenza e iniettarli nei blocchi del trasformatore, potenziando la capacità del modello di preservare caratteristiche dettagliate. Proponiamo una strategia di addestramento gerarchico per sfruttare le informazioni sulla frequenza per la conservazione dell'identità, trasformando un modello di generazione video preaddestrato di base in un modello IPT2V. Estesi esperimenti dimostrano che il nostro schema euristico consapevole della frequenza fornisce una soluzione di controllo ottimale per i modelli basati su DiT. Grazie a questo schema, il nostro ConsisID genera video di alta qualità che preservano l'identità, facendo progressi verso IPT2V più efficaci.
English
Identity-preserving text-to-video (IPT2V) generation aims to create high-fidelity videos with consistent human identity. It is an important task in video generation but remains an open problem for generative models. This paper pushes the technical frontier of IPT2V in two directions that have not been resolved in literature: (1) A tuning-free pipeline without tedious case-by-case finetuning, and (2) A frequency-aware heuristic identity-preserving DiT-based control scheme. We propose ConsisID, a tuning-free DiT-based controllable IPT2V model to keep human identity consistent in the generated video. Inspired by prior findings in frequency analysis of diffusion transformers, it employs identity-control signals in the frequency domain, where facial features can be decomposed into low-frequency global features and high-frequency intrinsic features. First, from a low-frequency perspective, we introduce a global facial extractor, which encodes reference images and facial key points into a latent space, generating features enriched with low-frequency information. These features are then integrated into shallow layers of the network to alleviate training challenges associated with DiT. Second, from a high-frequency perspective, we design a local facial extractor to capture high-frequency details and inject them into transformer blocks, enhancing the model's ability to preserve fine-grained features. We propose a hierarchical training strategy to leverage frequency information for identity preservation, transforming a vanilla pre-trained video generation model into an IPT2V model. Extensive experiments demonstrate that our frequency-aware heuristic scheme provides an optimal control solution for DiT-based models. Thanks to this scheme, our ConsisID generates high-quality, identity-preserving videos, making strides towards more effective IPT2V.

Summary

AI-Generated Summary

PDF133November 28, 2024