구조화된 상태 공간 모델을 활용한 최첨단 음성 인식인 Samba-asr
Samba-asr state-of-the-art speech recognition leveraging structured state-space models
January 6, 2025
저자: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI
초록
우리는 새로운 Mamba 아키텍처를 활용한 최첨단 자동 음성 인식(ASR) 모델인 Samba ASR을 제안합니다. 이 모델은 인코더와 디코더로서 Mamba 아키텍처를 활용하며 상태 공간 모델(SSM)의 기초 위에 구축되었습니다. 의존성을 포착하기 위해 자가 주의 메커니즘에 의존하는 트랜스포머 기반 ASR 모델과는 달리, Samba ASR은 효율적인 상태 공간 동역학을 사용하여 로컬 및 글로벌 시간 의존성을 효과적으로 모델링하여 현저한 성능 향상을 달성합니다. 입력 길이와 장거리 의존성 처리의 어려움과 같은 트랜스포머의 한계를 해결함으로써 Samba ASR은 우수한 정확도와 효율성을 달성합니다. 실험 결과는 Samba ASR이 다양한 표준 벤치마크에서 기존의 오픈 소스 트랜스포머 기반 ASR 모델을 능가하여 ASR의 새로운 최첨단 기술로 자리매김함을 입증합니다. 벤치마크 데이터셋에 대한 포괄적인 평가는 단어 오류율(WER)에서 상당한 개선을 보여주며, 낮은 자원 상황에서도 경쟁력 있는 성능을 보입니다. 또한 Mamba 아키텍처의 계산 효율성과 매개변수 최적화는 Samba ASR을 다양한 ASR 작업에 대한 확장 가능하고 견고한 솔루션으로 만듭니다. 우리의 기여는 다음과 같습니다: 음성 시퀀스 처리를 위한 SSMs의 우월성을 보여주는 새로운 Samba ASR 아키텍처, 최첨단 성능을 보여주는 공개 벤치마크에 대한 포괄적인 평가, 계산 효율성, 잡음에 대한 견고성 및 시퀀스 일반화에 대한 분석. 이 연구는 효율적이고 정확한 ASR을 위한 트랜스포머 없는 대안으로서 Mamba SSM의 타당성을 강조합니다. 상태 공간 모델링의 진보를 활용하여 Samba ASR은 ASR 성능과 미래 연구를 위한 새로운 기준을 설정합니다.
English
We propose Samba ASR, the first state-of-the-art Automatic Speech Recognition
(ASR) model leveraging the novel Mamba architecture as both encoder and
decoder, built on the foundation of state-space models (SSMs). Unlike
transformer-based ASR models, which rely on self-attention mechanisms to
capture dependencies, Samba ASR effectively models both local and global
temporal dependencies using efficient state-space dynamics, achieving
remarkable performance gains. By addressing the limitations of transformers,
such as quadratic scaling with input length and difficulty in handling
long-range dependencies, Samba ASR achieves superior accuracy and efficiency.
Experimental results demonstrate that Samba ASR surpasses existing
open-source transformer-based ASR models across various standard benchmarks,
establishing it as the new state of the art in ASR. Extensive evaluations on
benchmark datasets show significant improvements in Word Error Rate (WER), with
competitive performance even in low-resource scenarios. Furthermore, the
computational efficiency and parameter optimization of the Mamba architecture
make Samba ASR a scalable and robust solution for diverse ASR tasks.
Our contributions include:
A new Samba ASR architecture demonstrating the superiority of SSMs over
transformer-based models for speech sequence processing. A comprehensive
evaluation on public benchmarks showcasing state-of-the-art performance. An
analysis of computational efficiency, robustness to noise, and sequence
generalization. This work highlights the viability of Mamba SSMs as a
transformer-free alternative for efficient and accurate ASR. By leveraging
state-space modeling advancements, Samba ASR sets a new benchmark for ASR
performance and future research.Summary
AI-Generated Summary