DM-Codec: Destillierung multimodaler Repräsentationen für die Tokenisierung von Sprache

DM-Codec: Distilling Multimodal Representations for Speech Tokenization

October 19, 2024
Autoren: Md Mubtasim Ahasan, Md Fahim, Tasnim Mohiuddin, A K M Mahbubur Rahman, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Md Mofijul Islam, Amin Ahsan Ali
cs.AI

Zusammenfassung

Jüngste Fortschritte bei Sprach-Sprachmodellen haben signifikante Verbesserungen bei der Tokenisierung und Synthese von Sprache gebracht. Dennoch bleibt die effektive Zuordnung der komplexen, multidimensionalen Merkmale von Sprache in diskrete Tokens eine Herausforderung. Dieser Prozess erfordert akustische, semantische und kontextuelle Informationen für präzise Sprachrepräsentationen. Bestehende Sprachrepräsentationen lassen sich im Allgemeinen in zwei Kategorien einteilen: akustische Tokens aus Audiocodecs und semantische Tokens aus selbstüberwachten Lernmodellen für Sprache. Obwohl jüngste Bemühungen akustische und semantische Tokens vereinheitlicht haben, um die Leistung zu verbessern, vernachlässigen sie die entscheidende Rolle der kontextuellen Repräsentation bei umfassender Sprachmodellierung. Unsere empirischen Untersuchungen zeigen, dass das Fehlen von kontextuellen Repräsentationen zu erhöhten Wortfehlerraten (WER) und verlorenen Wortinformationen (WIL) bei Sprachtranskriptionen führt. Um diese Einschränkungen anzugehen, schlagen wir zwei neuartige Destillationsansätze vor: (1) eine durch ein Sprachmodell (LM) geleitete Destillationsmethode, die kontextuelle Informationen integriert, und (2) eine kombinierte LM- und selbstüberwachte Sprachmodell (SM)-geleitete Destillationstechnik, die multimodale Repräsentationen (akustisch, semantisch und kontextuell) effektiv zu einem umfassenden Sprachtokener, genannt DM-Codec, destilliert. Die DM-Codec-Architektur verwendet ein schlankes Encoder-Decoder-Framework mit einem Residual Vector Quantizer (RVQ) und integriert das LM und SM während des Schulungsprozesses. Experimente zeigen, dass DM-Codec signifikant bessere Leistungen als führende Sprach-Tokenisierungsmodelle erbringt, indem es die WER um bis zu 13,46 %, die WIL um 9,82 % reduziert und die Sprachqualität um 5,84 % und die Verständlichkeit um 1,85 % auf dem Benchmark-Datensatz LibriSpeech verbessert. Der Code, Beispiele und Modell-Checkpoints sind unter https://github.com/mubtasimahasan/DM-Codec verfügbar.
English
Recent advancements in speech-language models have yielded significant improvements in speech tokenization and synthesis. However, effectively mapping the complex, multidimensional attributes of speech into discrete tokens remains challenging. This process demands acoustic, semantic, and contextual information for precise speech representations. Existing speech representations generally fall into two categories: acoustic tokens from audio codecs and semantic tokens from speech self-supervised learning models. Although recent efforts have unified acoustic and semantic tokens for improved performance, they overlook the crucial role of contextual representation in comprehensive speech modeling. Our empirical investigations reveal that the absence of contextual representations results in elevated Word Error Rate (WER) and Word Information Lost (WIL) scores in speech transcriptions. To address these limitations, we propose two novel distillation approaches: (1) a language model (LM)-guided distillation method that incorporates contextual information, and (2) a combined LM and self-supervised speech model (SM)-guided distillation technique that effectively distills multimodal representations (acoustic, semantic, and contextual) into a comprehensive speech tokenizer, termed DM-Codec. The DM-Codec architecture adopts a streamlined encoder-decoder framework with a Residual Vector Quantizer (RVQ) and incorporates the LM and SM during the training process. Experiments show DM-Codec significantly outperforms state-of-the-art speech tokenization models, reducing WER by up to 13.46%, WIL by 9.82%, and improving speech quality by 5.84% and intelligibility by 1.85% on the LibriSpeech benchmark dataset. The code, samples, and model checkpoints are available at https://github.com/mubtasimahasan/DM-Codec.

Summary

AI-Generated Summary

PDF12November 16, 2024