ChatPaper.aiChatPaper

FocalCodec: 초저 비트율 음성 코딩을 위한 초점 조절 네트워크

FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks

February 6, 2025
저자: Luca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli
cs.AI

초록

대형 언어 모델은 거대한 데이터셋에서의 자가 감독 사전 훈련을 통해 자연어 처리를 혁신적으로 바꿨습니다. 이 성공을 영감으로, 연구자들은 연속적인 오디오를 토큰으로 이산화하여 신경 오디오 코덱을 사용해 이러한 방법을 음성에 적용하는 것을 탐구해 왔습니다. 그러나 기존의 접근 방식은 고 비트율, 의미 또는 음향 정보의 손실, 그리고 이를 모두 포착하려고 할 때 발생하는 다중 코드북 설계에 의존하는 등의 제한 사항이 있습니다. 이는 하위 작업을 위한 구조적 복잡성을 증가시킵니다. 이러한 도전에 대처하기 위해 저희는 FocalCodec을 소개합니다. FocalCodec은 단일 이진 코드북을 활용하여 음성을 0.16에서 0.65 kbps로 압축하는 효율적인 저 비트율 코덱으로, 초점 조절 변조를 기반으로 합니다. FocalCodec은 현재의 최첨단 기술보다 낮은 비트율에서 음성 재합성 및 음성 변환에서 경쟁력 있는 성능을 제공하며, 다국어 음성 및 소음 환경을 효과적으로 처리합니다. 하위 작업에서의 평가 결과, FocalCodec은 충분한 의미 및 음향 정보를 성공적으로 보존하면서 생성 모델링에도 적합합니다. 데모 샘플, 코드 및 체크포인트는 https://lucadellalib.github.io/focalcodec-web/에서 확인할 수 있습니다.
English
Large language models have revolutionized natural language processing through self-supervised pretraining on massive datasets. Inspired by this success, researchers have explored adapting these methods to speech by discretizing continuous audio into tokens using neural audio codecs. However, existing approaches face limitations, including high bitrates, the loss of either semantic or acoustic information, and the reliance on multi-codebook designs when trying to capture both, which increases architectural complexity for downstream tasks. To address these challenges, we introduce FocalCodec, an efficient low-bitrate codec based on focal modulation that utilizes a single binary codebook to compress speech between 0.16 and 0.65 kbps. FocalCodec delivers competitive performance in speech resynthesis and voice conversion at lower bitrates than the current state-of-the-art, while effectively handling multilingual speech and noisy environments. Evaluation on downstream tasks shows that FocalCodec successfully preserves sufficient semantic and acoustic information, while also being well-suited for generative modeling. Demo samples, code and checkpoints are available at https://lucadellalib.github.io/focalcodec-web/.

Summary

AI-Generated Summary

PDF32February 12, 2025