ChatPaper.aiChatPaper

아폴로: 고품질 오디오 복원을 위한 밴드 시퀀스 모델링

Apollo: Band-sequence Modeling for High-Quality Audio Restoration

September 13, 2024
저자: Kai Li, Yi Luo
cs.AI

초록

현대 사회에서 오디오 복원은 점점 더 중요해지고 있습니다. 이는 고급 재생 장치에 의해 가능한 고품질 청각 경험에 대한 수요 뿐만 아니라 생성 오디오 모델의 성능 향상으로 인해 고품질 오디오가 필요하기 때문입니다. 일반적으로 오디오 복원은 손상된 입력으로부터 왜곡되지 않은 오디오를 예측하는 작업으로 정의되며, 종종 GAN 프레임워크를 사용하여 지각과 왜곡을 균형있게 조절하도록 훈련됩니다. 오디오 손상은 주로 중고주파 범위에 집중되어 있으며, 특히 코덱 때문에 주로 발생합니다. 이에 관련된 주요 과제는 저주파 정보를 보존하면서 고품질 중고주파 콘텐츠를 정확하게 재구성할 수 있는 생성기를 설계하는 것에 있습니다. 최근 고음질 음악 분리, 음성 개선 및 오디오 코덱 모델의 발전을 영감으로 삼아, 우리는 고음질 오디오 복원을 위해 설계된 생성 모델인 Apollo을 제안합니다. Apollo은 서로 다른 주파수 대역 간의 관계를 모델링하기 위한 명시적 주파수 대역 분할 모듈을 사용하여, 더 일관되고 고품질의 복원된 오디오를 가능하게 합니다. MUSDB18-HQ 및 MoisesDB 데이터셋에서 평가한 결과, Apollo은 다양한 비트율과 음악 장르에서 기존 SR-GAN 모델을 일관되게 능가하며, 특히 여러 악기와 보컬이 혼합된 복잡한 시나리오에서 뛰어난 성과를 보입니다. Apollo은 음악 복원 품질을 크게 향상시키면서도 계산 효율성을 유지합니다. Apollo의 소스 코드는 https://github.com/JusperLee/Apollo에서 공개적으로 제공됩니다.
English
Audio restoration has become increasingly significant in modern society, not only due to the demand for high-quality auditory experiences enabled by advanced playback devices, but also because the growing capabilities of generative audio models necessitate high-fidelity audio. Typically, audio restoration is defined as a task of predicting undistorted audio from damaged input, often trained using a GAN framework to balance perception and distortion. Since audio degradation is primarily concentrated in mid- and high-frequency ranges, especially due to codecs, a key challenge lies in designing a generator capable of preserving low-frequency information while accurately reconstructing high-quality mid- and high-frequency content. Inspired by recent advancements in high-sample-rate music separation, speech enhancement, and audio codec models, we propose Apollo, a generative model designed for high-sample-rate audio restoration. Apollo employs an explicit frequency band split module to model the relationships between different frequency bands, allowing for more coherent and higher-quality restored audio. Evaluated on the MUSDB18-HQ and MoisesDB datasets, Apollo consistently outperforms existing SR-GAN models across various bit rates and music genres, particularly excelling in complex scenarios involving mixtures of multiple instruments and vocals. Apollo significantly improves music restoration quality while maintaining computational efficiency. The source code for Apollo is publicly available at https://github.com/JusperLee/Apollo.

Summary

AI-Generated Summary

PDF122November 16, 2024