Riconoscimento vocale all'avanguardia Samba-asr sfruttando modelli strutturati dello spazio degli stati.
Samba-asr state-of-the-art speech recognition leveraging structured state-space models
January 6, 2025
Autori: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI
Abstract
Proponiamo Samba ASR, il primo modello di Riconoscimento Automatico del Parlato (ASR) all'avanguardia che sfrutta la nuova architettura Mamba sia come codificatore che come decodificatore, costruita sulla base dei modelli di spazio di stato (SSM). A differenza dei modelli ASR basati su trasformatori, che si basano su meccanismi di autoattenzione per catturare le dipendenze, Samba ASR modella efficacemente le dipendenze temporali locali e globali utilizzando dinamiche efficienti dello spazio di stato, ottenendo notevoli miglioramenti delle prestazioni. Affrontando le limitazioni dei trasformatori, come la scalabilità quadratica con la lunghezza dell'input e la difficoltà nel gestire dipendenze a lungo raggio, Samba ASR raggiunge una precisione e un'efficienza superiori. I risultati sperimentali dimostrano che Samba ASR supera i modelli ASR basati su trasformatori open-source esistenti su vari benchmark standard, stabilendosi come il nuovo stato dell'arte in ASR. Valutazioni estese su dataset di benchmark mostrano significativi miglioramenti nel tasso di errore delle parole (WER), con prestazioni competitive anche in scenari a bassa risorsa. Inoltre, l'efficienza computazionale e l'ottimizzazione dei parametri dell'architettura Mamba rendono Samba ASR una soluzione scalabile e robusta per diverse attività di ASR. I nostri contributi includono: una nuova architettura Samba ASR che dimostra la superiorità dei SSM rispetto ai modelli basati su trasformatori per l'elaborazione delle sequenze vocali. Una valutazione completa su benchmark pubblici che mostra prestazioni all'avanguardia. Un'analisi dell'efficienza computazionale, della robustezza al rumore e della generalizzazione delle sequenze. Questo lavoro sottolinea la fattibilità dei SSM Mamba come alternativa senza trasformatori per un ASR efficiente e preciso. Sfruttando i progressi nella modellazione dello spazio di stato, Samba ASR stabilisce un nuovo punto di riferimento per le prestazioni dell'ASR e per la ricerca futura.
English
We propose Samba ASR, the first state-of-the-art Automatic Speech Recognition
(ASR) model leveraging the novel Mamba architecture as both encoder and
decoder, built on the foundation of state-space models (SSMs). Unlike
transformer-based ASR models, which rely on self-attention mechanisms to
capture dependencies, Samba ASR effectively models both local and global
temporal dependencies using efficient state-space dynamics, achieving
remarkable performance gains. By addressing the limitations of transformers,
such as quadratic scaling with input length and difficulty in handling
long-range dependencies, Samba ASR achieves superior accuracy and efficiency.
Experimental results demonstrate that Samba ASR surpasses existing
open-source transformer-based ASR models across various standard benchmarks,
establishing it as the new state of the art in ASR. Extensive evaluations on
benchmark datasets show significant improvements in Word Error Rate (WER), with
competitive performance even in low-resource scenarios. Furthermore, the
computational efficiency and parameter optimization of the Mamba architecture
make Samba ASR a scalable and robust solution for diverse ASR tasks.
Our contributions include:
A new Samba ASR architecture demonstrating the superiority of SSMs over
transformer-based models for speech sequence processing. A comprehensive
evaluation on public benchmarks showcasing state-of-the-art performance. An
analysis of computational efficiency, robustness to noise, and sequence
generalization. This work highlights the viability of Mamba SSMs as a
transformer-free alternative for efficient and accurate ASR. By leveraging
state-space modeling advancements, Samba ASR sets a new benchmark for ASR
performance and future research.Summary
AI-Generated Summary