DiTaiListener: Generazione Controllabile di Video ad Alta Fedeltà di Ascoltatori con Diffusione
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion
April 5, 2025
Autori: Maksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani
cs.AI
Abstract
Generare movimenti naturalistici e sfumati per l'ascoltatore durante interazioni prolungate rimane un problema aperto. I metodi esistenti spesso si basano su codici di movimento a bassa dimensionalità per la generazione del comportamento facciale, seguiti da rendering fotorealistico, limitando sia la fedeltà visiva che la ricchezza espressiva. Per affrontare queste sfide, introduciamo DiTaiListener, alimentato da un modello di diffusione video con condizioni multimodali. Il nostro approccio genera prima brevi segmenti di risposte dell'ascoltatore condizionate dal discorso e dai movimenti facciali del parlante con DiTaiListener-Gen. Successivamente, affina i fotogrammi di transizione tramite DiTaiListener-Edit per una transizione senza soluzione di continuità. Nello specifico, DiTaiListener-Gen adatta un Diffusion Transformer (DiT) per il compito di generazione di ritratti dell'ascoltatore introducendo un Causal Temporal Multimodal Adapter (CTM-Adapter) per elaborare i segnali uditivi e visivi del parlante. CTM-Adapter integra l'input del parlante in modo causale nel processo di generazione video per garantire risposte dell'ascoltatore temporalmente coerenti. Per la generazione di video di lunga durata, introduciamo DiTaiListener-Edit, un modello di diffusione video-to-video per il perfezionamento delle transizioni. Il modello fonde i segmenti video in video fluidi e continui, garantendo coerenza temporale nelle espressioni facciali e nella qualità dell'immagine quando si uniscono i brevi segmenti video prodotti da DiTaiListener-Gen. Quantitativamente, DiTaiListener raggiunge prestazioni all'avanguardia su dataset di riferimento sia nello spazio del fotorealismo (+73,8% in FID su RealTalk) che in quello della rappresentazione del movimento (+6,1% nella metrica FD su VICO). Studi con utenti confermano la superiorità di DiTaiListener, con il modello che è chiaramente preferito in termini di feedback, diversità e fluidità, superando i concorrenti con un margine significativo.
English
Generating naturalistic and nuanced listener motions for extended
interactions remains an open problem. Existing methods often rely on
low-dimensional motion codes for facial behavior generation followed by
photorealistic rendering, limiting both visual fidelity and expressive
richness. To address these challenges, we introduce DiTaiListener, powered by a
video diffusion model with multimodal conditions. Our approach first generates
short segments of listener responses conditioned on the speaker's speech and
facial motions with DiTaiListener-Gen. It then refines the transitional frames
via DiTaiListener-Edit for a seamless transition. Specifically,
DiTaiListener-Gen adapts a Diffusion Transformer (DiT) for the task of listener
head portrait generation by introducing a Causal Temporal Multimodal Adapter
(CTM-Adapter) to process speakers' auditory and visual cues. CTM-Adapter
integrates speakers' input in a causal manner into the video generation process
to ensure temporally coherent listener responses. For long-form video
generation, we introduce DiTaiListener-Edit, a transition refinement
video-to-video diffusion model. The model fuses video segments into smooth and
continuous videos, ensuring temporal consistency in facial expressions and
image quality when merging short video segments produced by DiTaiListener-Gen.
Quantitatively, DiTaiListener achieves the state-of-the-art performance on
benchmark datasets in both photorealism (+73.8% in FID on RealTalk) and motion
representation (+6.1% in FD metric on VICO) spaces. User studies confirm the
superior performance of DiTaiListener, with the model being the clear
preference in terms of feedback, diversity, and smoothness, outperforming
competitors by a significant margin.Summary
AI-Generated Summary