Sintesi continua del discorso utilizzando la diffusione latente per token.
Continuous Speech Synthesis using per-token Latent Diffusion
October 21, 2024
Autori: Arnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel
cs.AI
Abstract
Il successo dei modelli trasformatore autoregressivi con token discreti ha ispirato approcci basati sulla quantizzazione per modalità continue, sebbene spesso limitino la qualità della ricostruzione. Introduciamo quindi SALAD, un modello di diffusione latente per token per la conversione testo-voce senza supervisione, che opera su rappresentazioni continue. SALAD si basa sul recentemente proposto modulo di diffusione espressivo per la generazione di immagini, estendendolo per generare output di lunghezza variabile. Il nostro approccio utilizza token semantici per fornire informazioni contestuali e determinare la condizione di arresto. Suggeriamo tre varianti continue per il nostro metodo, estendendo tecniche popolari di sintesi vocale discreta. Inoltre, implementiamo basi discrete per ciascuna variante e conduciamo un'analisi comparativa delle tecniche di modellizzazione della voce discrete rispetto a continue. I nostri risultati dimostrano che sia gli approcci continui che quelli discreti sono altamente competenti, e che SALAD raggiunge un punteggio di intelligibilità superiore ottenendo qualità della voce e similarità del parlante in linea con l'audio reale.
English
The success of autoregressive transformer models with discrete tokens has
inspired quantization-based approaches for continuous modalities, though these
often limit reconstruction quality. We therefore introduce SALAD, a per-token
latent diffusion model for zero-shot text-to-speech, that operates on
continuous representations. SALAD builds upon the recently proposed expressive
diffusion head for image generation, and extends it to generate variable-length
outputs. Our approach utilizes semantic tokens for providing contextual
information and determining the stopping condition. We suggest three continuous
variants for our method, extending popular discrete speech synthesis
techniques. Additionally, we implement discrete baselines for each variant and
conduct a comparative analysis of discrete versus continuous speech modeling
techniques. Our results demonstrate that both continuous and discrete
approaches are highly competent, and that SALAD achieves a superior
intelligibility score while obtaining speech quality and speaker similarity on
par with the ground-truth audio.Summary
AI-Generated Summary