ChatPaper.aiChatPaper

Diffusione Video Controllata Audio-Visuale con Modellazione a Spazi di Stato Selettivi e Maschera per la Generazione Naturale di Teste Parlanti

Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

April 3, 2025
Autori: Fa-Ting Hong, Zunnan Xu, Zixiang Zhou, Jun Zhou, Xiu Li, Qin Lin, Qinglin Lu, Dan Xu
cs.AI

Abstract

La sintesi di volti parlanti è fondamentale per gli avatar virtuali e l'interazione uomo-computer. Tuttavia, la maggior parte dei metodi esistenti è tipicamente limitata all'accettazione di controlli da una singola modalità primaria, riducendone l'utilità pratica. A tal fine, introduciamo ACTalker, un framework di diffusione video end-to-end che supporta sia il controllo multi-segnale che il controllo a singolo segnale per la generazione di video di volti parlanti. Per il controllo multiplo, progettiamo una struttura mamba parallela con più rami, ciascuno dei quali utilizza un segnale di guida separato per controllare specifiche regioni facciali. Un meccanismo di gate viene applicato su tutti i rami, fornendo un controllo flessibile sulla generazione del video. Per garantire una coordinazione naturale del video controllato sia temporalmente che spazialmente, utilizziamo la struttura mamba, che consente ai segnali di guida di manipolare i token di feature attraverso entrambe le dimensioni in ciascun ramo. Inoltre, introduciamo una strategia di mask-drop che permette a ciascun segnale di guida di controllare in modo indipendente la propria regione facciale corrispondente all'interno della struttura mamba, prevenendo conflitti di controllo. I risultati sperimentali dimostrano che il nostro metodo produce video facciali dall'aspetto naturale guidati da segnali diversi e che il livello mamba integra perfettamente multiple modalità di guida senza conflitti.
English
Talking head synthesis is vital for virtual avatars and human-computer interaction. However, most existing methods are typically limited to accepting control from a single primary modality, restricting their practical utility. To this end, we introduce ACTalker, an end-to-end video diffusion framework that supports both multi-signals control and single-signal control for talking head video generation. For multiple control, we design a parallel mamba structure with multiple branches, each utilizing a separate driving signal to control specific facial regions. A gate mechanism is applied across all branches, providing flexible control over video generation. To ensure natural coordination of the controlled video both temporally and spatially, we employ the mamba structure, which enables driving signals to manipulate feature tokens across both dimensions in each branch. Additionally, we introduce a mask-drop strategy that allows each driving signal to independently control its corresponding facial region within the mamba structure, preventing control conflicts. Experimental results demonstrate that our method produces natural-looking facial videos driven by diverse signals and that the mamba layer seamlessly integrates multiple driving modalities without conflict.

Summary

AI-Generated Summary

PDF414April 4, 2025