Scaling Transformers per la Codifica Vocale ad Alta Qualità a Bassi Bitrate
Scaling Transformers for Low-Bitrate High-Quality Speech Coding
November 29, 2024
Autori: Julian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu
cs.AI
Abstract
La tokenizzazione del parlato con modelli neurali di codec audio è una parte fondamentale delle moderne pipeline di intelligenza artificiale per la generazione o comprensione del parlato, da solo o in contesti multimodali. Tradizionalmente, tali modelli di tokenizzazione si sono concentrati su architetture a basso conteggio di parametri utilizzando solo componenti con forti bias induttivi. In questo lavoro mostriamo che scalando un'architettura transformer con un grande conteggio di parametri per questo problema e applicando un bottleneck basato su Quantizzazione Scalare Finita (FSQ) flessibile, è possibile raggiungere una qualità del parlato all'avanguardia a bit-rate estremamente bassi di 400 o 700 bit al secondo. I modelli addestrati superano nettamente i baselines esistenti sia negli esami oggettivi che soggettivi.
English
The tokenization of speech with neural audio codec models is a vital part of
modern AI pipelines for the generation or understanding of speech, alone or in
a multimodal context. Traditionally such tokenization models have concentrated
on low parameter-count architectures using only components with strong
inductive biases. In this work we show that by scaling a transformer
architecture with large parameter count to this problem, and applying a
flexible Finite Scalar Quantization (FSQ) based bottleneck, it is possible to
reach state-of-the-art speech quality at extremely low bit-rates of 400 or
700 bits-per-second. The trained models strongly out-perform existing
baselines in both objective and subjective tests.Summary
AI-Generated Summary