Synthèse de la parole continue en utilisant la diffusion latente par jeton.

Continuous Speech Synthesis using per-token Latent Diffusion

October 21, 2024
Auteurs: Arnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel
cs.AI

Résumé

Le succès des modèles de transformer autorégressifs avec des jetons discrets a inspiré des approches basées sur la quantification pour les modalités continues, bien que celles-ci limitent souvent la qualité de la reconstruction. Nous introduisons donc SALAD, un modèle de diffusion latente par jeton pour la synthèse vocale zéro-shot, qui fonctionne sur des représentations continues. SALAD s'appuie sur la tête de diffusion expressive récemment proposée pour la génération d'images, et l'étend pour générer des sorties de longueurs variables. Notre approche utilise des jetons sémantiques pour fournir des informations contextuelles et déterminer la condition d'arrêt. Nous proposons trois variantes continues pour notre méthode, étendant des techniques populaires de synthèse vocale discrète. De plus, nous mettons en œuvre des références discrètes pour chaque variante et réalisons une analyse comparative des techniques de modélisation de la parole discrète par rapport aux techniques continues. Nos résultats montrent que les approches continues et discrètes sont très compétentes, et que SALAD obtient un score d'intelligibilité supérieur tout en obtenant une qualité de parole et une similarité de locuteur comparables à l'audio de référence.
English
The success of autoregressive transformer models with discrete tokens has inspired quantization-based approaches for continuous modalities, though these often limit reconstruction quality. We therefore introduce SALAD, a per-token latent diffusion model for zero-shot text-to-speech, that operates on continuous representations. SALAD builds upon the recently proposed expressive diffusion head for image generation, and extends it to generate variable-length outputs. Our approach utilizes semantic tokens for providing contextual information and determining the stopping condition. We suggest three continuous variants for our method, extending popular discrete speech synthesis techniques. Additionally, we implement discrete baselines for each variant and conduct a comparative analysis of discrete versus continuous speech modeling techniques. Our results demonstrate that both continuous and discrete approaches are highly competent, and that SALAD achieves a superior intelligibility score while obtaining speech quality and speaker similarity on par with the ground-truth audio.

Summary

AI-Generated Summary

PDF283November 16, 2024