SIFT-50M: Un Dataset Multilingue su Larga Scala per il Fine-Tuning di Istruzioni Vocali
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning
April 12, 2025
Autori: Prabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz
cs.AI
Abstract
Presentiamo SIFT (Speech Instruction Fine-Tuning), un dataset da 50 milioni di esempi progettato per il fine-tuning su istruzioni e il pre-addestramento di modelli linguistici di grandi dimensioni (LLM) per il testo e la voce. SIFT-50M è costruito a partire da corpora vocali disponibili pubblicamente, che complessivamente contengono 14.000 ore di parlato, e sfrutta LLM insieme a modelli esperti preesistenti. Il dataset copre cinque lingue, abbracciando un'ampia gamma di istruzioni per la comprensione del parlato e la generazione vocale controllata. Utilizzando SIFT-50M, addestriamo SIFT-LLM, che supera gli attuali LLM per testo e voce nei benchmark di esecuzione di istruzioni, ottenendo al contempo prestazioni competitive nei compiti fondamentali di elaborazione del parlato. Per supportare ulteriori ricerche, introduciamo anche EvalSIFT, un dataset di benchmark specificamente progettato per valutare le capacità di esecuzione di istruzioni degli LLM per testo e voce.
English
We introduce SIFT (Speech Instruction Fine-Tuning), a 50M-example dataset
designed for instruction fine-tuning and pre-training of speech-text large
language models (LLMs). SIFT-50M is built from publicly available speech
corpora, which collectively contain 14K hours of speech, and leverages LLMs
along with off-the-shelf expert models. The dataset spans five languages,
encompassing a diverse range of speech understanding as well as controllable
speech generation instructions. Using SIFT-50M, we train SIFT-LLM, which
outperforms existing speech-text LLMs on instruction-following benchmarks while
achieving competitive performance on foundational speech tasks. To support
further research, we also introduce EvalSIFT, a benchmark dataset specifically
designed to evaluate the instruction-following capabilities of speech-text
LLMs.Summary
AI-Generated Summary