HiFi-SR: 고품질 음성 초해상도를 위한 통합 생성 트랜스포머-합성곱 적대 신경망
HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution
January 17, 2025
저자: Shengkui Zhao, Kun Zhou, Zexu Pan, Yukun Ma, Chong Zhang, Bin Ma
cs.AI
초록
최근에는 적대적 생성 신경망(GANs)의 적용이 mel-스펙트로그램과 같은 중간 표현을 기반으로 한 음성 초해상도(SR)를 발전시켰습니다. 그러나 일반적으로 독립적으로 훈련되고 연결된 네트워크에 의존하는 기존의 SR 방법은 불일치하는 표현과 특히 도메인 밖 시나리오에서는 낮은 음질을 유발할 수 있습니다. 본 연구에서는 고품질 음성 초해상도를 달성하기 위해 end-to-end 적대적 훈련을 활용하는 통합 네트워크인 HiFi-SR을 제안합니다. 저희 모델은 잠재 표현의 예측과 시간 영역 파형으로의 변환을 원활하게 처리하기 위해 설계된 통합 transformer-convolutional 생성기를 특징으로 합니다. transformer 네트워크는 강력한 인코더 역할을 하며 저해상도 mel-스펙트로그램을 잠재 공간 표현으로 변환하고, convolutional 네트워크는 이러한 표현을 고해상도 파형으로 업스케일링합니다. 고주파수 품질을 향상시키기 위해 다중 밴드, 다중 스케일 시간-주파수 판별자와 적대적 훈련 과정에서 다중 스케일 mel-재구성 손실을 통합합니다. HiFi-SR은 4 kHz에서 32 kHz 사이의 모든 입력 음성 신호를 48 kHz 샘플링 속도로 업스케일링할 수 있는 다재다능한 성능을 갖추고 있습니다. 실험 결과는 HiFi-SR이 기존의 음성 SR 방법을 목적적 지표와 ABX 선호도 테스트 모두에서 도메인 내외 시나리오에서 현저하게 능가함을 보여주며 (https://github.com/modelscope/ClearerVoice-Studio).
English
The application of generative adversarial networks (GANs) has recently
advanced speech super-resolution (SR) based on intermediate representations
like mel-spectrograms. However, existing SR methods that typically rely on
independently trained and concatenated networks may lead to inconsistent
representations and poor speech quality, especially in out-of-domain scenarios.
In this work, we propose HiFi-SR, a unified network that leverages end-to-end
adversarial training to achieve high-fidelity speech super-resolution. Our
model features a unified transformer-convolutional generator designed to
seamlessly handle both the prediction of latent representations and their
conversion into time-domain waveforms. The transformer network serves as a
powerful encoder, converting low-resolution mel-spectrograms into latent space
representations, while the convolutional network upscales these representations
into high-resolution waveforms. To enhance high-frequency fidelity, we
incorporate a multi-band, multi-scale time-frequency discriminator, along with
a multi-scale mel-reconstruction loss in the adversarial training process.
HiFi-SR is versatile, capable of upscaling any input speech signal between 4
kHz and 32 kHz to a 48 kHz sampling rate. Experimental results demonstrate that
HiFi-SR significantly outperforms existing speech SR methods across both
objective metrics and ABX preference tests, for both in-domain and
out-of-domain scenarios (https://github.com/modelscope/ClearerVoice-Studio).Summary
AI-Generated Summary