HiFi-SR: Een Verenigd Generatief Transformer-Convolutioneel Adversarieel Netwerk voor Hoogwaardige Spraak Super-Resolutie

HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution

January 17, 2025
Auteurs: Shengkui Zhao, Kun Zhou, Zexu Pan, Yukun Ma, Chong Zhang, Bin Ma
cs.AI

Samenvatting

De toepassing van generatieve tegenstandernetwerken (GAN's) heeft onlangs de spraak-superresolutie (SR) verbeterd op basis van tussenliggende representaties zoals mel-spectrogrammen. Bestaande SR-methoden die doorgaans afhankelijk zijn van onafhankelijk getrainde en geconcateneerde netwerken kunnen echter leiden tot inconsistente representaties en een slechte spraakkwaliteit, vooral in out-of-domain scenario's. In dit werk stellen we HiFi-SR voor, een verenigd netwerk dat end-to-end tegenstanderstraining benut om een hoogwaardige spraak-superresolutie te bereiken. Ons model bevat een verenigde transformer-convolutionele generator die is ontworpen om zowel de voorspelling van latente representaties als hun conversie naar tijddomeingolven naadloos te verwerken. Het transformer-netwerk fungeert als een krachtige encoder, die lage-resolutie mel-spectrogrammen omzet in latente ruimtereferenties, terwijl het convolutionele netwerk deze representaties opschalen naar hoogwaardige golven in het tijddomein. Om de hoge-frequentiegetrouwheid te verbeteren, nemen we een multi-band, multi-schaal tijd-frequentie discriminator op, samen met een multi-schaal mel-reconstructieverlies in het tegenstanderstrainingproces. HiFi-SR is veelzijdig en in staat om elk invoerspraaksignaal tussen 4 kHz en 32 kHz op te schalen naar een bemonsteringsfrequentie van 48 kHz. Experimentele resultaten tonen aan dat HiFi-SR aanzienlijk beter presteert dan bestaande spraak-SR-methoden op zowel objectieve metingen als ABX-voorkeurstests, zowel in in-domain als out-of-domain scenario's (https://github.com/modelscope/ClearerVoice-Studio).
English
The application of generative adversarial networks (GANs) has recently advanced speech super-resolution (SR) based on intermediate representations like mel-spectrograms. However, existing SR methods that typically rely on independently trained and concatenated networks may lead to inconsistent representations and poor speech quality, especially in out-of-domain scenarios. In this work, we propose HiFi-SR, a unified network that leverages end-to-end adversarial training to achieve high-fidelity speech super-resolution. Our model features a unified transformer-convolutional generator designed to seamlessly handle both the prediction of latent representations and their conversion into time-domain waveforms. The transformer network serves as a powerful encoder, converting low-resolution mel-spectrograms into latent space representations, while the convolutional network upscales these representations into high-resolution waveforms. To enhance high-frequency fidelity, we incorporate a multi-band, multi-scale time-frequency discriminator, along with a multi-scale mel-reconstruction loss in the adversarial training process. HiFi-SR is versatile, capable of upscaling any input speech signal between 4 kHz and 32 kHz to a 48 kHz sampling rate. Experimental results demonstrate that HiFi-SR significantly outperforms existing speech SR methods across both objective metrics and ABX preference tests, for both in-domain and out-of-domain scenarios (https://github.com/modelscope/ClearerVoice-Studio).

Summary

AI-Generated Summary

PDF83January 20, 2025