ChatPaper.aiChatPaper

HiFi-SR: Ein vereinheitlichtes generatives Transformer-Faltung-Adversarial-Netzwerk für hochauflösende Sprach-Super-Resolution.

HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution

January 17, 2025
Autoren: Shengkui Zhao, Kun Zhou, Zexu Pan, Yukun Ma, Chong Zhang, Bin Ma
cs.AI

Zusammenfassung

Die Anwendung von generativen adversariellen Netzwerken (GANs) hat kürzlich die Sprach-Superauflösung (SR) auf der Grundlage von Zwischenrepräsentationen wie Mel-Spektrogrammen vorangetrieben. Allerdings können bestehende SR-Methoden, die in der Regel auf unabhängig trainierten und verketteten Netzwerken basieren, zu inkonsistenten Repräsentationen und einer schlechten Sprachqualität führen, insbesondere in Szenarien außerhalb des eigentlichen Anwendungsbereichs. In dieser Arbeit schlagen wir HiFi-SR vor, ein vereinheitlichtes Netzwerk, das auf end-to-end adversarischem Training basiert, um eine hochwertige Sprach-Superauflösung zu erreichen. Unser Modell verfügt über einen vereinheitlichten Transformer-Faltungs-Generator, der darauf ausgelegt ist, sowohl die Vorhersage latenter Repräsentationen als auch deren Umwandlung in Zeitbereichs-Wellenformen nahtlos zu handhaben. Das Transformer-Netzwerk fungiert als leistungsstarker Encoder, der niedrig auflösende Mel-Spektrogramme in latente Raumrepräsentationen umwandelt, während das Faltungsnetzwerk diese Repräsentationen in hochauflösende Wellenformen umwandelt. Um die Hochfrequenztreue zu verbessern, integrieren wir einen Multi-Band, Multi-Scale Zeit-Frequenz-Diskriminator sowie einen Multi-Scale Mel-Rekonstruktionsverlust in den adversariellen Trainingsprozess. HiFi-SR ist vielseitig einsetzbar und in der Lage, jedes Eingangssprachsignal zwischen 4 kHz und 32 kHz auf eine Abtastrate von 48 kHz hochzuskalieren. Experimentelle Ergebnisse zeigen, dass HiFi-SR sowohl in In-Domain- als auch in Out-of-Domain-Szenarien signifikant bessere Leistungen als bestehende Sprach-SR-Methoden aufweist, sowohl anhand objektiver Metriken als auch ABX-Präferenztests (https://github.com/modelscope/ClearerVoice-Studio).
English
The application of generative adversarial networks (GANs) has recently advanced speech super-resolution (SR) based on intermediate representations like mel-spectrograms. However, existing SR methods that typically rely on independently trained and concatenated networks may lead to inconsistent representations and poor speech quality, especially in out-of-domain scenarios. In this work, we propose HiFi-SR, a unified network that leverages end-to-end adversarial training to achieve high-fidelity speech super-resolution. Our model features a unified transformer-convolutional generator designed to seamlessly handle both the prediction of latent representations and their conversion into time-domain waveforms. The transformer network serves as a powerful encoder, converting low-resolution mel-spectrograms into latent space representations, while the convolutional network upscales these representations into high-resolution waveforms. To enhance high-frequency fidelity, we incorporate a multi-band, multi-scale time-frequency discriminator, along with a multi-scale mel-reconstruction loss in the adversarial training process. HiFi-SR is versatile, capable of upscaling any input speech signal between 4 kHz and 32 kHz to a 48 kHz sampling rate. Experimental results demonstrate that HiFi-SR significantly outperforms existing speech SR methods across both objective metrics and ABX preference tests, for both in-domain and out-of-domain scenarios (https://github.com/modelscope/ClearerVoice-Studio).

Summary

AI-Generated Summary

PDF93January 20, 2025