Von TOWER zu SPIRE: Hinzufügen der Sprachmodalität zu einem rein textbasierten LLM
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM
March 13, 2025
Autoren: Kshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen und Generalisierungsfähigkeiten über mehrere Sprachen und Aufgaben hinweg gezeigt, was sie zu sehr attraktiven Zielen für die Integration von Multimodalität (z. B. Bilder oder Sprache) macht. In dieser Arbeit erweitern wir ein bestehendes LLM auf die Sprachmodalität durch Sprachdiskretisierung und fortgesetztes Pre-Training. Insbesondere interessieren wir uns für mehrsprachige LLMs wie TOWER, da ihre Pre-Training-Einstellung es uns ermöglicht, diskretisierte Spracheingaben als zusätzliche Übersetzungssprache zu behandeln. Das daraus resultierende Open-Source-Modell, SPIRE, ist in der Lage, englische Spracheingaben zu transkribieren und zu übersetzen, während es die ursprüngliche Leistung von TOWER bei übersetzungsbezogenen Aufgaben beibehält. Dies zeigt, dass die Integration von diskretisierten Spracheingaben als zusätzliche Sprache während der LLM-Anpassung machbar ist. Wir stellen unseren Code und unsere Modelle der Gemeinschaft zur Verfügung.
English
Large language models (LLMs) have shown remarkable performance and
generalization capabilities across multiple languages and tasks, making them
very attractive targets for multi-modality integration (e.g., images or
speech). In this work, we extend an existing LLM to the speech modality via
speech discretization and continued pre-training. In particular, we are
interested in multilingual LLMs, such as TOWER, as their pre-training setting
allows us to treat discretized speech input as an additional translation
language. The resulting open-source model, SPIRE, is able to transcribe and
translate English speech input while maintaining TOWER's original performance
on translation-related tasks, showcasing that discretized speech input
integration as an additional language is feasible during LLM adaptation. We
make our code and models available to the community.Summary
AI-Generated Summary