ChatPaper.aiChatPaper

저 비트율 고품질 음성 코딩을 위한 트랜스포머 확장

Scaling Transformers for Low-Bitrate High-Quality Speech Coding

November 29, 2024
저자: Julian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu
cs.AI

초록

신경 음성 코덱 모델을 사용한 음성의 토큰화는 현대 AI 파이프라인에서 음성의 생성 또는 이해를 위한 중요한 부분으로, 단독 또는 다중 모달 컨텍스트에서 사용됩니다. 기존에는 저 파라미터 수를 가진 아키텍처에 집중하여 강한 귀납 편향을 가진 구성 요소만 사용하는 토큰화 모델이 전통적으로 사용되었습니다. 본 연구에서는 대규모 파라미터 수를 가진 트랜스포머 아키텍처를 이 문제에 적용하고 유연한 유한 스칼라 양자화(FSQ) 기반 병목 현상을 적용함으로써, 초저 비트율인 초당 400 또는 700비트에서 최첨단 음성 품질을 달성할 수 있다는 것을 보여줍니다. 훈련된 모델은 객관적 및 주관적 테스트에서 기존의 기준선을 크게 능가합니다.
English
The tokenization of speech with neural audio codec models is a vital part of modern AI pipelines for the generation or understanding of speech, alone or in a multimodal context. Traditionally such tokenization models have concentrated on low parameter-count architectures using only components with strong inductive biases. In this work we show that by scaling a transformer architecture with large parameter count to this problem, and applying a flexible Finite Scalar Quantization (FSQ) based bottleneck, it is possible to reach state-of-the-art speech quality at extremely low bit-rates of 400 or 700 bits-per-second. The trained models strongly out-perform existing baselines in both objective and subjective tests.

Summary

AI-Generated Summary

PDF113December 2, 2024