Zero-AVSR: Zero-Shot Audio-Visuelle Spracherkennung mit LLMs durch das Erlernen sprachagnostischer Sprachrepräsentationen
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations
March 8, 2025
Autoren: Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro
cs.AI
Zusammenfassung
Wir untersuchen ein neuartiges Zero-Shot Audio-Visuelles Spracherkennungsframework (AVSR), genannt Zero-AVSR, das Spracherkennung in Zielsprachen ermöglicht, ohne dass dafür Audio-Visuelle Sprachdaten in diesen Sprachen benötigt werden. Konkret führen wir den Audio-Visuellen Sprachromanisierer (AV-Romanizer) ein, der sprachunabhängige Sprachrepräsentationen durch die Vorhersage von Romantext erlernt. Anschließend nutzen wir die starken mehrsprachigen Modellierungsfähigkeiten von Large Language Models (LLMs), um den vorhergesagten Romantext in sprachspezifische Grapheme umzuwandeln, wodurch das vorgeschlagene Kaskadierte Zero-AVSR entsteht. Darüber hinaus untersuchen wir einen vereinheitlichten Zero-AVSR-Ansatz, indem wir die durch den AV-Romanizer kodierten Audio-Visuellen Sprachrepräsentationen direkt in das LLM integrieren. Dies wird durch das Finetuning des Adapters und des LLMs mithilfe unseres vorgeschlagenen Multi-Task-Learning-Schemas erreicht. Um die breite Palette phonetischer und linguistischer Vielfalt zu erfassen, führen wir außerdem ein Mehrsprachiges Audio-Visuelles Romanisiertes Korpus (MARC) ein, das 2.916 Stunden Audio-Visueller Sprachdaten aus 82 Sprachen sowie Transkriptionen in sowohl sprachspezifischen Graphemen als auch Romantext umfasst. Umfangreiche Analysen und Experimente bestätigen, dass das vorgeschlagene Zero-AVSR-Framework das Potenzial hat, die Sprachunterstützung über die während des Trainings des AV-Romanizers gesehenen Sprachen hinaus zu erweitern.
English
We explore a novel zero-shot Audio-Visual Speech Recognition (AVSR)
framework, dubbed Zero-AVSR, which enables speech recognition in target
languages without requiring any audio-visual speech data in those languages.
Specifically, we introduce the Audio-Visual Speech Romanizer (AV-Romanizer),
which learns language-agnostic speech representations by predicting Roman text.
Then, by leveraging the strong multilingual modeling capabilities of Large
Language Models (LLMs), we propose converting the predicted Roman text into
language-specific graphemes, forming the proposed Cascaded Zero-AVSR. Taking it
a step further, we explore a unified Zero-AVSR approach by directly integrating
the audio-visual speech representations encoded by the AV-Romanizer into the
LLM. This is achieved through finetuning the adapter and the LLM using our
proposed multi-task learning scheme. To capture the wide spectrum of phonetic
and linguistic diversity, we also introduce a Multilingual Audio-Visual
Romanized Corpus (MARC) consisting of 2,916 hours of audio-visual speech data
across 82 languages, along with transcriptions in both language-specific
graphemes and Roman text. Extensive analysis and experiments confirm that the
proposed Zero-AVSR framework has the potential to expand language support
beyond the languages seen during the training of the AV-Romanizer.Summary
AI-Generated Summary