ChatPaper.aiChatPaper

JavisDiT: Trasformatore di Diffusione Audio-Video Congiunto con Sincronizzazione Gerarchica di Prior Spazio-Temporali

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

March 30, 2025
Autori: Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua
cs.AI

Abstract

Questo articolo introduce JavisDiT, un innovativo Joint Audio-Video Diffusion Transformer progettato per la generazione sincronizzata di audio e video (JAVG). Basato sull'architettura avanzata del Diffusion Transformer (DiT), JavisDiT è in grado di generare contenuti audio e video di alta qualità simultaneamente a partire da prompt aperti forniti dall'utente. Per garantire una sincronizzazione ottimale, introduciamo un meccanismo di allineamento spazio-temporale fine attraverso un Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator. Questo modulo estrae sia prior globali che finemente dettagliate a livello spazio-temporale, guidando la sincronizzazione tra le componenti visive e uditive. Inoltre, proponiamo un nuovo benchmark, JavisBench, composto da 10.140 video sonori di alta qualità con didascalie testuali, che coprono una vasta gamma di scene e scenari complessi del mondo reale. Inoltre, abbiamo specificamente ideato una metrica robusta per valutare la sincronizzazione tra coppie audio-video generate in contenuti complessi del mondo reale. I risultati sperimentali dimostrano che JavisDiT supera significativamente i metodi esistenti, garantendo sia una generazione di alta qualità che una sincronizzazione precisa, stabilendo un nuovo standard per i compiti JAVG. Il nostro codice, modello e dataset saranno resi pubblicamente disponibili all'indirizzo https://javisdit.github.io/.
English
This paper introduces JavisDiT, a novel Joint Audio-Video Diffusion Transformer designed for synchronized audio-video generation (JAVG). Built upon the powerful Diffusion Transformer (DiT) architecture, JavisDiT is able to generate high-quality audio and video content simultaneously from open-ended user prompts. To ensure optimal synchronization, we introduce a fine-grained spatio-temporal alignment mechanism through a Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator. This module extracts both global and fine-grained spatio-temporal priors, guiding the synchronization between the visual and auditory components. Furthermore, we propose a new benchmark, JavisBench, consisting of 10,140 high-quality text-captioned sounding videos spanning diverse scenes and complex real-world scenarios. Further, we specifically devise a robust metric for evaluating the synchronization between generated audio-video pairs in real-world complex content. Experimental results demonstrate that JavisDiT significantly outperforms existing methods by ensuring both high-quality generation and precise synchronization, setting a new standard for JAVG tasks. Our code, model, and dataset will be made publicly available at https://javisdit.github.io/.

Summary

AI-Generated Summary

PDF514April 4, 2025