Reconhecimento de fala Samba-asr de última geração aproveitando modelos estruturados de espaço de estados.
Samba-asr state-of-the-art speech recognition leveraging structured state-space models
January 6, 2025
Autores: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI
Resumo
Propomos o Samba ASR, o primeiro modelo de Reconhecimento Automático de Fala (ASR) de última geração que utiliza a inovadora arquitetura Mamba tanto como codificador quanto decodificador, construído sobre os fundamentos de modelos de espaço de estados (SSMs). Ao contrário dos modelos de ASR baseados em transformadores, que dependem de mecanismos de autoatenção para capturar dependências, o Samba ASR modela efetivamente as dependências temporais locais e globais usando dinâmicas eficientes de espaço de estados, alcançando ganhos de desempenho notáveis. Ao abordar as limitações dos transformadores, como a escalabilidade quadrática com o comprimento de entrada e a dificuldade em lidar com dependências de longo alcance, o Samba ASR alcança precisão e eficiência superiores.
Resultados experimentais demonstram que o Samba ASR supera os modelos de ASR baseados em transformadores de código aberto existentes em vários benchmarks padrão, estabelecendo-o como o novo estado da arte em ASR. Avaliações extensivas em conjuntos de dados de referência mostram melhorias significativas na Taxa de Erro de Palavras (WER), com desempenho competitivo mesmo em cenários de recursos limitados. Além disso, a eficiência computacional e a otimização de parâmetros da arquitetura Mamba tornam o Samba ASR uma solução escalável e robusta para diversas tarefas de ASR.
Nossas contribuições incluem:
Uma nova arquitetura Samba ASR demonstrando a superioridade dos SSMs sobre os modelos baseados em transformadores para o processamento de sequências de fala. Uma avaliação abrangente em benchmarks públicos mostrando um desempenho de última geração. Uma análise da eficiência computacional, robustez ao ruído e generalização de sequências. Este trabalho destaca a viabilidade dos SSMs Mamba como uma alternativa livre de transformadores para um ASR eficiente e preciso. Ao aproveitar os avanços na modelagem de espaço de estados, o Samba ASR estabelece um novo padrão de desempenho em ASR e para pesquisas futuras.
English
We propose Samba ASR, the first state-of-the-art Automatic Speech Recognition
(ASR) model leveraging the novel Mamba architecture as both encoder and
decoder, built on the foundation of state-space models (SSMs). Unlike
transformer-based ASR models, which rely on self-attention mechanisms to
capture dependencies, Samba ASR effectively models both local and global
temporal dependencies using efficient state-space dynamics, achieving
remarkable performance gains. By addressing the limitations of transformers,
such as quadratic scaling with input length and difficulty in handling
long-range dependencies, Samba ASR achieves superior accuracy and efficiency.
Experimental results demonstrate that Samba ASR surpasses existing
open-source transformer-based ASR models across various standard benchmarks,
establishing it as the new state of the art in ASR. Extensive evaluations on
benchmark datasets show significant improvements in Word Error Rate (WER), with
competitive performance even in low-resource scenarios. Furthermore, the
computational efficiency and parameter optimization of the Mamba architecture
make Samba ASR a scalable and robust solution for diverse ASR tasks.
Our contributions include:
A new Samba ASR architecture demonstrating the superiority of SSMs over
transformer-based models for speech sequence processing. A comprehensive
evaluation on public benchmarks showcasing state-of-the-art performance. An
analysis of computational efficiency, robustness to noise, and sequence
generalization. This work highlights the viability of Mamba SSMs as a
transformer-free alternative for efficient and accurate ASR. By leveraging
state-space modeling advancements, Samba ASR sets a new benchmark for ASR
performance and future research.Summary
AI-Generated Summary