MuCodec: 초 저 비트율 음악 코덱
MuCodec: Ultra Low-Bitrate Music Codec
September 20, 2024
저자: Yaoxun Xu, Hangting Chen, Jianwei Yu, Wei Tan, Rongzhi Gu, Shun Lei, Zhiwei Lin, Zhiyong Wu
cs.AI
초록
음악 코덱은 오디오 코덱 연구의 중요한 측면이며, 초저 비트율 압축은 음악 전송 및 생성에 중요한 중요성을 가지고 있습니다. 음악 배경의 복잡성과 보컬의 풍부함으로 인해 음악과 배경 모두를 효과적으로 재구성하기 위해서는 단순히 의미론적이거나 음향 정보를 모델링하는 데만 의존하는 것은 부족합니다. 이 문제를 해결하기 위해 우리는 MuCodec을 제안합니다. MuCodec은 초저 비트율에서 음악 압축 및 재구성 작업을 명확히 대상으로 하며, MuEncoder를 사용하여 음향 및 의미적 특징을 추출하고, RVQ로 이산화하며, 플로 매칭을 통해 Mel-VAE 특징을 얻습니다. 그런 다음 사전 훈련된 MEL-VAE 디코더와 HiFi-GAN을 사용하여 음악을 재구성합니다. MuCodec은 초저(0.35kbps) 또는 고 비트율(1.35kbps)에서 고품질 음악을 재구성할 수 있으며, 주관적 및 객관적 평가에서 현재까지 최상의 결과를 달성합니다. 코드 및 데모: https://xuyaoxun.github.io/MuCodec_demo/.
English
Music codecs are a vital aspect of audio codec research, and ultra
low-bitrate compression holds significant importance for music transmission and
generation. Due to the complexity of music backgrounds and the richness of
vocals, solely relying on modeling semantic or acoustic information cannot
effectively reconstruct music with both vocals and backgrounds. To address this
issue, we propose MuCodec, specifically targeting music compression and
reconstruction tasks at ultra low bitrates. MuCodec employs MuEncoder to
extract both acoustic and semantic features, discretizes them with RVQ, and
obtains Mel-VAE features via flow-matching. The music is then reconstructed
using a pre-trained MEL-VAE decoder and HiFi-GAN. MuCodec can reconstruct
high-fidelity music at ultra low (0.35kbps) or high bitrates (1.35kbps),
achieving the best results to date in both subjective and objective metrics.
Code and Demo: https://xuyaoxun.github.io/MuCodec_demo/.Summary
AI-Generated Summary