Kontinuierliche Sprachsynthese unter Verwendung von pro-Token Latenter Diffusion
Continuous Speech Synthesis using per-token Latent Diffusion
October 21, 2024
Autoren: Arnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel
cs.AI
Zusammenfassung
Der Erfolg von autoregressiven Transformer-Modellen mit diskreten Tokens hat quantisierungs-basierte Ansätze für kontinuierliche Modalitäten inspiriert, obwohl diese oft die Rekonstruktionsqualität einschränken. Wir stellen daher SALAD vor, ein pro-Token latentes Diffusionsmodell für Null-Schuss Text-zu-Sprache, das auf kontinuierlichen Repräsentationen arbeitet. SALAD baut auf dem kürzlich vorgeschlagenen expressiven Diffusionskopf für die Bildgenerierung auf und erweitert ihn, um variabel lange Ausgaben zu generieren. Unser Ansatz nutzt semantische Tokens zur Bereitstellung von Kontextinformationen und zur Bestimmung der Stop-Bedingung. Wir schlagen drei kontinuierliche Varianten für unsere Methode vor, die beliebte diskrete Sprachsynthesetechniken erweitern. Darüber hinaus implementieren wir diskrete Baselines für jede Variante und führen eine vergleichende Analyse von diskreten versus kontinuierlichen Sprachmodellierungstechniken durch. Unsere Ergebnisse zeigen, dass sowohl kontinuierliche als auch diskrete Ansätze sehr kompetent sind und dass SALAD eine überlegene Verständlichkeit aufweist, während sie Sprachqualität und Sprecherähnlichkeit auf dem Niveau des Original-Audios erreicht.
English
The success of autoregressive transformer models with discrete tokens has
inspired quantization-based approaches for continuous modalities, though these
often limit reconstruction quality. We therefore introduce SALAD, a per-token
latent diffusion model for zero-shot text-to-speech, that operates on
continuous representations. SALAD builds upon the recently proposed expressive
diffusion head for image generation, and extends it to generate variable-length
outputs. Our approach utilizes semantic tokens for providing contextual
information and determining the stopping condition. We suggest three continuous
variants for our method, extending popular discrete speech synthesis
techniques. Additionally, we implement discrete baselines for each variant and
conduct a comparative analysis of discrete versus continuous speech modeling
techniques. Our results demonstrate that both continuous and discrete
approaches are highly competent, and that SALAD achieves a superior
intelligibility score while obtaining speech quality and speaker similarity on
par with the ground-truth audio.Summary
AI-Generated Summary