Zero-AVSR: Zero-Shot Audio-Visuelle Spracherkennung mit LLMs durch das Erlernen sprachagnostischer Sprachrepräsentationen

Zusammenfassung

Wir untersuchen ein neuartiges Zero-Shot Audio-Visuelles Spracherkennungsframework (AVSR), genannt Zero-AVSR, das Spracherkennung in Zielsprachen ermöglicht, ohne dass dafür Audio-Visuelle Sprachdaten in diesen Sprachen benötigt werden. Konkret führen wir den Audio-Visuellen Sprachromanisierer (AV-Romanizer) ein, der sprachunabhängige Sprachrepräsentationen durch die Vorhersage von Romantext erlernt. Anschließend nutzen wir die starken mehrsprachigen Modellierungsfähigkeiten von Large Language Models (LLMs), um den vorhergesagten Romantext in sprachspezifische Grapheme umzuwandeln, wodurch das vorgeschlagene Kaskadierte Zero-AVSR entsteht. Darüber hinaus untersuchen wir einen vereinheitlichten Zero-AVSR-Ansatz, indem wir die durch den AV-Romanizer kodierten Audio-Visuellen Sprachrepräsentationen direkt in das LLM integrieren. Dies wird durch das Finetuning des Adapters und des LLMs mithilfe unseres vorgeschlagenen Multi-Task-Learning-Schemas erreicht. Um die breite Palette phonetischer und linguistischer Vielfalt zu erfassen, führen wir außerdem ein Mehrsprachiges Audio-Visuelles Romanisiertes Korpus (MARC) ein, das 2.916 Stunden Audio-Visueller Sprachdaten aus 82 Sprachen sowie Transkriptionen in sowohl sprachspezifischen Graphemen als auch Romantext umfasst. Umfangreiche Analysen und Experimente bestätigen, dass das vorgeschlagene Zero-AVSR-Framework das Potenzial hat, die Sprachunterstützung über die während des Trainings des AV-Romanizers gesehenen Sprachen hinaus zu erweitern.

English

We explore a novel zero-shot Audio-Visual Speech Recognition (AVSR) framework, dubbed Zero-AVSR, which enables speech recognition in target languages without requiring any audio-visual speech data in those languages. Specifically, we introduce the Audio-Visual Speech Romanizer (AV-Romanizer), which learns language-agnostic speech representations by predicting Roman text. Then, by leveraging the strong multilingual modeling capabilities of Large Language Models (LLMs), we propose converting the predicted Roman text into language-specific graphemes, forming the proposed Cascaded Zero-AVSR. Taking it a step further, we explore a unified Zero-AVSR approach by directly integrating the audio-visual speech representations encoded by the AV-Romanizer into the LLM. This is achieved through finetuning the adapter and the LLM using our proposed multi-task learning scheme. To capture the wide spectrum of phonetic and linguistic diversity, we also introduce a Multilingual Audio-Visual Romanized Corpus (MARC) consisting of 2,916 hours of audio-visual speech data across 82 languages, along with transcriptions in both language-specific graphemes and Roman text. Extensive analysis and experiments confirm that the proposed Zero-AVSR framework has the potential to expand language support beyond the languages seen during the training of the AV-Romanizer.

Zero-AVSR: Zero-Shot Audio-Visuelle Spracherkennung mit LLMs durch das Erlernen sprachagnostischer Sprachrepräsentationen

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations

Zusammenfassung

Summary

Support

Support