ChatPaper.aiChatPaper

Analisi di Scalabilità dei Modelli Linguistici con Discorso e Testo Intervallati

Scaling Analysis of Interleaved Speech-Text Language Models

April 3, 2025
Autori: Gallil Maimon, Michael Hassid, Amit Roth, Yossi Adi
cs.AI

Abstract

L'analisi di scalabilità degli esistenti Speech Language Model (SLM) dipinge un quadro piuttosto desolante. Si prevede che gli SLM richiedano molta più potenza di calcolo e dati rispetto ai modelli di testo, portando alcuni a mettere in dubbio la fattibilità di addestrare SLM di alta qualità. Tuttavia, gli SLM moderni vengono spesso inizializzati a partire da TextLM pre-addestrati utilizzando l'interpolazione tra parlato e testo per consentire il trasferimento di conoscenza. Ciò solleva la domanda: gli SLM interpolati scalano in modo più efficiente rispetto agli SLM senza testo? In questo articolo rispondiamo con un sonoro sì! Conduciamo un'analisi di scalabilità degli SLM interpolati addestrandone diverse decine e analizzando le tendenze di scalabilità. Osserviamo che, in questa configurazione, gli SLM scalano in modo più efficiente con la potenza di calcolo. Inoltre, i nostri risultati indicano che le dinamiche di scalabilità sono significativamente diverse rispetto agli SLM senza testo, suggerendo che si dovrebbe allocare una quota notevolmente maggiore del budget di calcolo per aumentare le dimensioni del modello piuttosto che il numero di token di addestramento. Studiamo anche il ruolo dei dati sintetici e delle famiglie di modelli TextLM nello sbloccare questo potenziale. I risultati suggeriscono che il nostro modello scalato raggiunge prestazioni comparabili con i modelli leader nelle metriche semantiche del parlato, utilizzando meno potenza di calcolo e dati rispetto ad altri approcci. Rendiamo disponibili in open source modelli, campioni e dati - https://pages.cs.huji.ac.il/adiyoss-lab/sims.
English
Existing Speech Language Model (SLM) scaling analysis paints a bleak picture. They predict that SLMs require much more compute and data compared to text, leading some to question the feasibility of training high-quality SLMs. However, modern SLMs are often initialised from pre-trained TextLMs using speech-text interleaving to allow knowledge transfer. This raises the question - Do interleaved SLMs scale more efficiently than textless-SLMs? In this paper we answer a resounding, yes! We conduct scaling analysis of interleaved SLMs by training several dozen and analysing the scaling trends. We see that under this setup SLMs scale more efficiently with compute. Additionally, our results indicate that the scaling-dynamics are significantly different than textless-SLMs, suggesting one should allocate notably more of the compute budget for increasing model size over training tokens. We also study the role of synthetic data and TextLM model families in unlocking this potential. Results suggest, that our scaled up model achieves comparable performance with leading models on speech semantic metrics while using less compute and data than other approaches. We open source models, samples, and data - https://pages.cs.huji.ac.il/adiyoss-lab/sims.

Summary

AI-Generated Summary

PDF272April 4, 2025