Scaling Transformers per la Codifica Vocale ad Alta Qualità a Bassi Bitrate

Abstract

La tokenizzazione del parlato con modelli neurali di codec audio è una parte fondamentale delle moderne pipeline di intelligenza artificiale per la generazione o comprensione del parlato, da solo o in contesti multimodali. Tradizionalmente, tali modelli di tokenizzazione si sono concentrati su architetture a basso conteggio di parametri utilizzando solo componenti con forti bias induttivi. In questo lavoro mostriamo che scalando un'architettura transformer con un grande conteggio di parametri per questo problema e applicando un bottleneck basato su Quantizzazione Scalare Finita (FSQ) flessibile, è possibile raggiungere una qualità del parlato all'avanguardia a bit-rate estremamente bassi di 400 o 700 bit al secondo. I modelli addestrati superano nettamente i baselines esistenti sia negli esami oggettivi che soggettivi.

English

The tokenization of speech with neural audio codec models is a vital part of modern AI pipelines for the generation or understanding of speech, alone or in a multimodal context. Traditionally such tokenization models have concentrated on low parameter-count architectures using only components with strong inductive biases. In this work we show that by scaling a transformer architecture with large parameter count to this problem, and applying a flexible Finite Scalar Quantization (FSQ) based bottleneck, it is possible to reach state-of-the-art speech quality at extremely low bit-rates of 400 or 700 bits-per-second. The trained models strongly out-perform existing baselines in both objective and subjective tests.

Scaling Transformers per la Codifica Vocale ad Alta Qualità a Bassi Bitrate

Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Abstract

Summary

Support