Continue Spraaksynthese met behulp van per-token Latente Diffusie
Continuous Speech Synthesis using per-token Latent Diffusion
October 21, 2024
Auteurs: Arnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel
cs.AI
Samenvatting
Het succes van autoregressieve transformer modellen met discrete tokens heeft geleid tot kwantiseringsgebaseerde benaderingen voor continue modaliteiten, hoewel deze vaak de reconstructiekwaliteit beperken. We introduceren daarom SALAD, een per-token latente diffusie model voor zero-shot tekst-naar-spraak, dat werkt met continue representaties. SALAD bouwt voort op de recent voorgestelde expressieve diffusie kop voor beeldgeneratie en breidt deze uit om variabele lengte-uitvoer te genereren. Onze benadering maakt gebruik van semantische tokens voor het verstrekken van contextuele informatie en het bepalen van de stopvoorwaarde. We stellen drie continue varianten voor onze methode voor, die populaire discrete spraaksynthesetechnieken uitbreiden. Daarnaast implementeren we discrete baselines voor elke variant en voeren een vergelijkende analyse uit van discrete versus continue spraakmodelleringstechnieken. Onze resultaten tonen aan dat zowel continue als discrete benaderingen zeer competent zijn, en dat SALAD een superieure verstaanbaarheidsscore behaalt terwijl het spraakkwaliteit en sprekersgelijkenis op het niveau van de grondwaarheidsaudio verkrijgt.
English
The success of autoregressive transformer models with discrete tokens has
inspired quantization-based approaches for continuous modalities, though these
often limit reconstruction quality. We therefore introduce SALAD, a per-token
latent diffusion model for zero-shot text-to-speech, that operates on
continuous representations. SALAD builds upon the recently proposed expressive
diffusion head for image generation, and extends it to generate variable-length
outputs. Our approach utilizes semantic tokens for providing contextual
information and determining the stopping condition. We suggest three continuous
variants for our method, extending popular discrete speech synthesis
techniques. Additionally, we implement discrete baselines for each variant and
conduct a comparative analysis of discrete versus continuous speech modeling
techniques. Our results demonstrate that both continuous and discrete
approaches are highly competent, and that SALAD achieves a superior
intelligibility score while obtaining speech quality and speaker similarity on
par with the ground-truth audio.Summary
AI-Generated Summary