MoCha: Verso la Sintesi di Personaggi Parlanti di Livello Cinematografico
MoCha: Towards Movie-Grade Talking Character Synthesis
March 30, 2025
Autori: Cong Wei, Bo Sun, Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Peter Vajda, Wenhu Chen
cs.AI
Abstract
I recenti progressi nella generazione video hanno raggiunto un impressionante realismo nel movimento, ma spesso trascurano la narrazione basata sui personaggi, un compito cruciale per la generazione automatizzata di film e animazioni. Introduciamo Talking Characters, un compito più realistico per generare animazioni di personaggi parlanti direttamente da discorsi e testo. A differenza dei talking head, Talking Characters mira a generare il ritratto completo di uno o più personaggi, andando oltre la regione facciale. In questo articolo, proponiamo MoCha, il primo del suo genere a generare personaggi parlanti. Per garantire una sincronizzazione precisa tra video e discorso, proponiamo un meccanismo di attenzione a finestra tra discorso e video che allinea efficacemente i token di discorso e video. Per affrontare la scarsità di dataset video su larga scala etichettati con discorsi, introduciamo una strategia di addestramento congiunto che sfrutta sia dati video etichettati con discorsi che con testo, migliorando significativamente la generalizzazione attraverso diverse azioni dei personaggi. Progettiamo inoltre modelli di prompt strutturati con tag di personaggio, consentendo, per la prima volta, conversazioni multi-personaggio con dialoghi a turni, permettendo ai personaggi generati dall'IA di impegnarsi in conversazioni contestualmente consapevoli con coerenza cinematografica. Valutazioni qualitative e quantitative estese, inclusi studi sulle preferenze umane e confronti con benchmark, dimostrano che MoCha stabilisce un nuovo standard per la narrazione cinematografica generata dall'IA, raggiungendo un realismo, un'espressività, una controllabilità e una generalizzazione superiori.
English
Recent advancements in video generation have achieved impressive motion
realism, yet they often overlook character-driven storytelling, a crucial task
for automated film, animation generation. We introduce Talking Characters, a
more realistic task to generate talking character animations directly from
speech and text. Unlike talking head, Talking Characters aims at generating the
full portrait of one or more characters beyond the facial region. In this
paper, we propose MoCha, the first of its kind to generate talking characters.
To ensure precise synchronization between video and speech, we propose a
speech-video window attention mechanism that effectively aligns speech and
video tokens. To address the scarcity of large-scale speech-labeled video
datasets, we introduce a joint training strategy that leverages both
speech-labeled and text-labeled video data, significantly improving
generalization across diverse character actions. We also design structured
prompt templates with character tags, enabling, for the first time,
multi-character conversation with turn-based dialogue-allowing AI-generated
characters to engage in context-aware conversations with cinematic coherence.
Extensive qualitative and quantitative evaluations, including human preference
studies and benchmark comparisons, demonstrate that MoCha sets a new standard
for AI-generated cinematic storytelling, achieving superior realism,
expressiveness, controllability and generalization.Summary
AI-Generated Summary