構造化された状態空間モデルを活用した最先端音声認識のSamba-asr
Samba-asr state-of-the-art speech recognition leveraging structured state-space models
January 6, 2025
著者: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI
要旨
我々は、新しいMambaアーキテクチャをエンコーダーおよびデコーダーとして活用する、最先端の自動音声認識(ASR)モデルであるSamba ASRを提案します。このモデルは、状態空間モデル(SSM)を基盤として構築されており、従来のtransformerベースのASRモデルとは異なり、自己注意メカニズムに依存せず、効率的な状態空間ダイナミクスを使用して、ローカルおよびグローバルな時間依存関係を効果的にモデル化します。これにより、入力長との二次的スケーリングや長距離依存関係の取り扱いの難しさなど、transformerの制約を克服し、優れた精度と効率を実現します。
実験結果は、Samba ASRが標準ベンチマーク全般で既存のオープンソースのtransformerベースのASRモデルを上回り、ASRの最先端技術として確立されていることを示しています。ベンチマークデータセットでの包括的な評価により、単語誤り率(WER)で著しい改善が示され、リソースが限られた状況でも競争力のある性能が確認されます。さらに、Mambaアーキテクチャの計算効率とパラメータ最適化により、Samba ASRは多様なASRタスクに対するスケーラブルで堅牢なソリューションとなっています。
本研究の貢献は以下の通りです:
音声シーケンス処理においてSSMの優越性を示す新しいSamba ASRアーキテクチャ。最先端のパフォーマンスを示す公開ベンチマークの包括的評価。計算効率、ノイズへの頑健性、シーケンスの汎化能力の分析。この研究は、効率的かつ正確なASRのためのtransformerフリーな選択肢としてのMamba SSMの実現可能性を示しています。状態空間モデリングの進歩を活用することで、Samba ASRはASRパフォーマンスと将来の研究における新たな基準を確立しています。
English
We propose Samba ASR, the first state-of-the-art Automatic Speech Recognition
(ASR) model leveraging the novel Mamba architecture as both encoder and
decoder, built on the foundation of state-space models (SSMs). Unlike
transformer-based ASR models, which rely on self-attention mechanisms to
capture dependencies, Samba ASR effectively models both local and global
temporal dependencies using efficient state-space dynamics, achieving
remarkable performance gains. By addressing the limitations of transformers,
such as quadratic scaling with input length and difficulty in handling
long-range dependencies, Samba ASR achieves superior accuracy and efficiency.
Experimental results demonstrate that Samba ASR surpasses existing
open-source transformer-based ASR models across various standard benchmarks,
establishing it as the new state of the art in ASR. Extensive evaluations on
benchmark datasets show significant improvements in Word Error Rate (WER), with
competitive performance even in low-resource scenarios. Furthermore, the
computational efficiency and parameter optimization of the Mamba architecture
make Samba ASR a scalable and robust solution for diverse ASR tasks.
Our contributions include:
A new Samba ASR architecture demonstrating the superiority of SSMs over
transformer-based models for speech sequence processing. A comprehensive
evaluation on public benchmarks showcasing state-of-the-art performance. An
analysis of computational efficiency, robustness to noise, and sequence
generalization. This work highlights the viability of Mamba SSMs as a
transformer-free alternative for efficient and accurate ASR. By leveraging
state-space modeling advancements, Samba ASR sets a new benchmark for ASR
performance and future research.Summary
AI-Generated Summary