Un Colpo, Una Conversazione: Avatar Parlante a Tutto Corpo da un'Immagine Singola

One Shot, One Talk: Whole-body Talking Avatar from a Single Image

December 2, 2024
Autori: Jun Xiang, Yudong Guo, Leipeng Hu, Boyang Guo, Yancheng Yuan, Juyong Zhang
cs.AI

Abstract

La creazione di avatar realistici e animabili richiede ancora minuti di video multi-vista o monocolo auto-rotanti, e la maggior parte dei metodi manca di controllo preciso sui gesti e le espressioni. Per spingere i limiti di questa tecnologia, affrontiamo la sfida di costruire un avatar parlante a figura intera da un'unica immagine. Proponiamo un nuovo processo che affronta due questioni critiche: 1) modellazione dinamica complessa e 2) generalizzazione a gesti ed espressioni nuovi. Per ottenere una generalizzazione fluida, sfruttiamo modelli di diffusione immagine-video guidati dalla posa per generare fotogrammi video imperfetti come pseudolabel. Per superare la sfida della modellazione dinamica posta dai video pseudo-incoerenti e rumorosi, introduciamo una rappresentazione ibrida avatar 3DGS-mesh strettamente accoppiata e applichiamo diverse regolarizzazioni chiave per mitigare le incoerenze causate dai label imperfetti. Estesi esperimenti su soggetti diversi dimostrano che il nostro metodo consente la creazione di un avatar parlante a figura intera fotorealistico, precisamente animabile ed espressivo da una singola immagine.
English
Building realistic and animatable avatars still requires minutes of multi-view or monocular self-rotating videos, and most methods lack precise control over gestures and expressions. To push this boundary, we address the challenge of constructing a whole-body talking avatar from a single image. We propose a novel pipeline that tackles two critical issues: 1) complex dynamic modeling and 2) generalization to novel gestures and expressions. To achieve seamless generalization, we leverage recent pose-guided image-to-video diffusion models to generate imperfect video frames as pseudo-labels. To overcome the dynamic modeling challenge posed by inconsistent and noisy pseudo-videos, we introduce a tightly coupled 3DGS-mesh hybrid avatar representation and apply several key regularizations to mitigate inconsistencies caused by imperfect labels. Extensive experiments on diverse subjects demonstrate that our method enables the creation of a photorealistic, precisely animatable, and expressive whole-body talking avatar from just a single image.

Summary

AI-Generated Summary

Panoramica dell'Articolo

Lo studio propone un innovativo metodo per creare un avatar parlante espressivo a figura intera da un'unica immagine, affrontando sfide di modellazione dinamica complessa e generalizzazione a nuovi gesti ed espressioni. Utilizzando modelli di diffusione immagine-video guidati dalla posa, il metodo genera frame video imperfetti come pseudo-etichette per una rappresentazione ibrida avatar mesh-3DGS. Questo approccio consente di ottenere un avatar parlante fotorealistico, precisamente animabile ed espressivo, integrando regolarizzazioni chiave per mitigare le inconsistenze causate dalle etichette imperfette.

Contributo Principale

  • Costruzione di un avatar parlante espressivo da un'unica immagine.
  • Introduzione di una rappresentazione ibrida avatar mesh-3DGS con regolarizzazioni per mitigare le inconsistenze.
  • Utilizzo di modelli di diffusione immagine-video guidati dalla posa per generare pseudo-etichette.
  • Generazione di sequenze video imperfette per generalizzare a nuovi gesti ed espressioni.
  • Integrazione di modelli generativi pre-addestrati e supervisioni per guidare la rappresentazione dell'avatar.

Contesto della Ricerca

Lo studio si colloca nel contesto della generazione di avatar umani in 3D e sintesi di video umani basati su modelli di diffusione. Utilizza approcci di apprendimento automatico, modellazione neurale e modelli di diffusione per creare avatar fotorealistici e video umani, con un focus su realismo e consistenza 3D.

Parole Chiave

Avatar Parlante, Rappresentazione Ibrida 3DGS-Mesh, Modelli di Diffusione, Supervisione Percettiva, Regolarizzazioni, Generazione di Pseudo-Etichette

Contesto

L'articolo propone un nuovo metodo per creare avatar espressivi da un'immagine singola, introducendo una rappresentazione ibrida 3DGS-Mesh e vincoli chiave per la deformazione e la consistenza 3D. Utilizza etichette pseudo per guidare la creazione degli avatar e vincoli morbidi per la deformazione della mesh, con un'attenzione particolare alla guida percettiva e all'ottimizzazione.

Lacuna nella Ricerca

  • Mancanza di approcci per la generazione di avatar espressivi da un'unica immagine.
  • Necessità di vincoli chiave per la rappresentazione degli avatar e la generazione di etichette pseudo.
  • Limitazioni nell'accuratezza del tracciamento e nella resa a larga visuale.

Sfide Tecniche

  • Modellazione dinamica complessa per gli avatar a figura intera.
  • Generalizzazione a nuovi gesti ed espressioni.
  • Addestramento efficace della rappresentazione dell'avatar dai video rumorosi.

Approcci Precedenti

  • Utilizzo di modelli di diffusione immagine-video guidati dalla posa.
  • Integrazione di supervisioni e modelli generativi pre-addestrati.
  • Applicazione di regolarizzazioni e termini di perdita per addestrare la rappresentazione dell'avatar.

Metodologia

Il metodo proposto si basa su una rappresentazione ibrida 3DGS-Mesh per gli avatar, utilizzando modelli di diffusione immagine-video guidati dalla posa per generare pseudo-etichette. Introduce regolarizzazioni chiave e supervisioni per addestrare efficacemente la rappresentazione dell'avatar, superando le limitazioni degli approcci precedenti.

Fondamenti Teorici

  • Utilizzo di modelli di diffusione immagine-video per generare pseudo-etichette.
  • Integrazione di rappresentazioni ibride mesh-3DGS per affrontare la modellazione dinamica complessa.
  • Applicazione di regolarizzazioni per mitigare le inconsistenze causate dalle etichette imperfette.

Architettura Tecnica

  • Rappresentazione ibrida avatar mesh-3DGS accoppiata.
  • Generazione di sequenze video imperfette guidate da sequenze di movimento.
  • Utilizzo di due campi di deformazione per influenzare la deformazione gaussiana e mesh.

Dettagli Implementativi

  • Utilizzo di campi gaussiani isotropi e ottimizzazione con Adam.
  • Applicazione di pesi delle perdite per l'addestramento della rappresentazione dell'avatar.
  • Integrazione di modelli generativi pre-addestrati per guidare la rappresentazione ibrida mesh-3DGS.

Punti di Innovazione

  • Generazione di frame video imperfetti come pseudo-etichette.
  • Utilizzo di due campi di deformazione per gestire regioni complesse.
  • Integrazione di supervisioni e modelli generativi per una rappresentazione precisa dell'avatar.

Validazione Sperimentale

L'esperimento include la generazione di avatar parlanti da un'immagine singola, valutando il realismo e la consistenza 3D rispetto ad altri approcci rappresentativi. Vengono utilizzati parametri specifici, metriche di valutazione precise e confronti dettagliati con baselines.

Configurazione

  • Generazione di avatar parlanti da un'immagine singola.
  • Utilizzo di supervisione percettiva e modelli generativi.
  • Implementazione di un sistema di tracciamento accurato per la rappresentazione dell'avatar.

Metriche

  • Valutazione del realismo e della consistenza 3D degli avatar generati.
  • Confronto con altri approcci rappresentativi.
  • Analisi dettagliata delle perdite e delle regolarizzazioni applicate.

Risultati

  • Il metodo proposto supera gli altri in termini di realismo e consistenza 3D.
  • Dimostrazione dell'importanza dei vincoli sulla mesh e della guida percettiva.
  • Identificazione di limitazioni nell'accuratezza del tracciamento e nella resa a larga visuale.

Analisi Comparativa

  • Confronto dettagliato con altri approcci rappresentativi.
  • Evidenziazione delle superiorità del metodo proposto.
  • Discussione sulle implicazioni dei risultati ottenuti.

Impatto e Implicazioni

Lo studio presenta importanti contributi nel campo della generazione di avatar espressivi da un'immagine singola, superando le limitazioni degli approcci precedenti. Tuttavia, vengono identificate alcune limitazioni e suggerite possibili direzioni future per miglioramenti e applicazioni pratiche.

Principali Risultati

  • Creazione di avatar parlanti fotorealistici ed espressivi da un'unica immagine.
  • Superamento di altri approcci in realismo e consistenza 3D.
  • Importanza dei vincoli sulla mesh e della guida percettiva.

Limitazioni

  • Limitazioni nell'accuratezza del tracciamento e nella resa a larga visuale.
  • Possibili miglioramenti nella generazione di etichette pseudo e nella deformazione della mesh.

Futuri Sviluppi

  • Esplorazione di nuove tecniche per migliorare l'accuratezza del tracciamento.
  • Approfondimento sulla generazione di gesti corporei realistici e cambiamenti di espressione.
  • Applicazioni pratiche nel campo delle tecnologie di rilevamento delle frodi.

Significato Pratico

  • Creazione di avatar espressivi per applicazioni in ambito virtuale e di sicurezza.
  • Possibilità di utilizzo in tecnologie di rilevamento delle frodi.
  • Importanza della trasparenza e dell'apertura nella ricerca per applicazioni etiche e responsabili.

Articoli in Evidenza

DeepSeek-R1: Incentivizzare la capacità di ragionamento nei LLM tramite Apprendimento per Rinforzo
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253685

Rapporto Tecnico Qwen2.5
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436311

MiniMax-01: Scalare i modelli di base con attenzione lampeggiante
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia WuJan 14, 20252826

PDF202December 5, 2024