Sintesi continua del discorso utilizzando la diffusione latente per token.

Abstract

Il successo dei modelli trasformatore autoregressivi con token discreti ha ispirato approcci basati sulla quantizzazione per modalità continue, sebbene spesso limitino la qualità della ricostruzione. Introduciamo quindi SALAD, un modello di diffusione latente per token per la conversione testo-voce senza supervisione, che opera su rappresentazioni continue. SALAD si basa sul recentemente proposto modulo di diffusione espressivo per la generazione di immagini, estendendolo per generare output di lunghezza variabile. Il nostro approccio utilizza token semantici per fornire informazioni contestuali e determinare la condizione di arresto. Suggeriamo tre varianti continue per il nostro metodo, estendendo tecniche popolari di sintesi vocale discreta. Inoltre, implementiamo basi discrete per ciascuna variante e conduciamo un'analisi comparativa delle tecniche di modellizzazione della voce discrete rispetto a continue. I nostri risultati dimostrano che sia gli approcci continui che quelli discreti sono altamente competenti, e che SALAD raggiunge un punteggio di intelligibilità superiore ottenendo qualità della voce e similarità del parlante in linea con l'audio reale.

English

The success of autoregressive transformer models with discrete tokens has inspired quantization-based approaches for continuous modalities, though these often limit reconstruction quality. We therefore introduce SALAD, a per-token latent diffusion model for zero-shot text-to-speech, that operates on continuous representations. SALAD builds upon the recently proposed expressive diffusion head for image generation, and extends it to generate variable-length outputs. Our approach utilizes semantic tokens for providing contextual information and determining the stopping condition. We suggest three continuous variants for our method, extending popular discrete speech synthesis techniques. Additionally, we implement discrete baselines for each variant and conduct a comparative analysis of discrete versus continuous speech modeling techniques. Our results demonstrate that both continuous and discrete approaches are highly competent, and that SALAD achieves a superior intelligibility score while obtaining speech quality and speaker similarity on par with the ground-truth audio.

Sintesi continua del discorso utilizzando la diffusione latente per token.

Continuous Speech Synthesis using per-token Latent Diffusion

Abstract

Summary

Support