FocalCodec: 초저 비트율 음성 코딩을 위한 초점 조절 네트워크
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks
February 6, 2025
저자: Luca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli
cs.AI
초록
대형 언어 모델은 거대한 데이터셋에서의 자가 감독 사전 훈련을 통해 자연어 처리를 혁신적으로 바꿨습니다. 이 성공을 영감으로, 연구자들은 연속적인 오디오를 토큰으로 이산화하여 신경 오디오 코덱을 사용해 이러한 방법을 음성에 적용하는 것을 탐구해 왔습니다. 그러나 기존의 접근 방식은 고 비트율, 의미 또는 음향 정보의 손실, 그리고 이를 모두 포착하려고 할 때 발생하는 다중 코드북 설계에 의존하는 등의 제한 사항이 있습니다. 이는 하위 작업을 위한 구조적 복잡성을 증가시킵니다. 이러한 도전에 대처하기 위해 저희는 FocalCodec을 소개합니다. FocalCodec은 단일 이진 코드북을 활용하여 음성을 0.16에서 0.65 kbps로 압축하는 효율적인 저 비트율 코덱으로, 초점 조절 변조를 기반으로 합니다. FocalCodec은 현재의 최첨단 기술보다 낮은 비트율에서 음성 재합성 및 음성 변환에서 경쟁력 있는 성능을 제공하며, 다국어 음성 및 소음 환경을 효과적으로 처리합니다. 하위 작업에서의 평가 결과, FocalCodec은 충분한 의미 및 음향 정보를 성공적으로 보존하면서 생성 모델링에도 적합합니다. 데모 샘플, 코드 및 체크포인트는 https://lucadellalib.github.io/focalcodec-web/에서 확인할 수 있습니다.
English
Large language models have revolutionized natural language processing through
self-supervised pretraining on massive datasets. Inspired by this success,
researchers have explored adapting these methods to speech by discretizing
continuous audio into tokens using neural audio codecs. However, existing
approaches face limitations, including high bitrates, the loss of either
semantic or acoustic information, and the reliance on multi-codebook designs
when trying to capture both, which increases architectural complexity for
downstream tasks. To address these challenges, we introduce FocalCodec, an
efficient low-bitrate codec based on focal modulation that utilizes a single
binary codebook to compress speech between 0.16 and 0.65 kbps. FocalCodec
delivers competitive performance in speech resynthesis and voice conversion at
lower bitrates than the current state-of-the-art, while effectively handling
multilingual speech and noisy environments. Evaluation on downstream tasks
shows that FocalCodec successfully preserves sufficient semantic and acoustic
information, while also being well-suited for generative modeling. Demo
samples, code and checkpoints are available at
https://lucadellalib.github.io/focalcodec-web/.Summary
AI-Generated Summary