MegaTTS 3: Trasformatore a Diffusione Latente con Allineamento Sparso Potenziato per la Sintesi Vocale Zero-Shot
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis
February 26, 2025
Autori: Ziyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao
cs.AI
Abstract
Sebbene i recenti modelli di text-to-speech (TTS) zero-shot abbiano migliorato significativamente la qualità e l'espressività del parlato, i sistemi mainstream continuano a soffrire di problemi legati alla modellazione dell'allineamento tra parlato e testo: 1) i modelli privi di una modellazione esplicita dell'allineamento parlato-testo mostrano una minore robustezza, specialmente per frasi complesse in applicazioni pratiche; 2) i modelli basati su allineamenti predefiniti sono limitati dalla naturalezza degli allineamenti forzati. Questo articolo introduce MegaTTS 3, un sistema TTS che presenta un innovativo algoritmo di allineamento sparso che guida il transformer a diffusione latente (DiT). Nello specifico, forniamo a MegaTTS 3 dei confini di allineamento sparsi per ridurre la difficoltà dell'allineamento senza limitare lo spazio di ricerca, ottenendo così un'elevata naturalezza. Inoltre, utilizziamo una strategia di guida senza classificatore a multi-condizione per l'aggiustamento dell'intensità dell'accento e adottiamo la tecnica del flusso rettificato a tratti per accelerare il processo di generazione. Gli esperimenti dimostrano che MegaTTS 3 raggiunge una qualità del parlato zero-shot TTS all'avanguardia e supporta un controllo altamente flessibile sull'intensità dell'accento. In particolare, il nostro sistema è in grado di generare un parlato di alta qualità della durata di un minuto con soli 8 passaggi di campionamento. Campioni audio sono disponibili all'indirizzo https://sditdemo.github.io/sditdemo/.
English
While recent zero-shot text-to-speech (TTS) models have significantly
improved speech quality and expressiveness, mainstream systems still suffer
from issues related to speech-text alignment modeling: 1) models without
explicit speech-text alignment modeling exhibit less robustness, especially for
hard sentences in practical applications; 2) predefined alignment-based models
suffer from naturalness constraints of forced alignments. This paper introduces
MegaTTS 3, a TTS system featuring an innovative sparse alignment
algorithm that guides the latent diffusion transformer (DiT). Specifically, we
provide sparse alignment boundaries to MegaTTS 3 to reduce the difficulty of
alignment without limiting the search space, thereby achieving high
naturalness. Moreover, we employ a multi-condition classifier-free guidance
strategy for accent intensity adjustment and adopt the piecewise rectified flow
technique to accelerate the generation process. Experiments demonstrate that
MegaTTS 3 achieves state-of-the-art zero-shot TTS speech quality and supports
highly flexible control over accent intensity. Notably, our system can generate
high-quality one-minute speech with only 8 sampling steps. Audio samples are
available at https://sditdemo.github.io/sditdemo/.Summary
AI-Generated Summary