あなたのリアルタイム同時音声からテキストへの翻訳システムは、どれだけ「リアル」ですか?
How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?
December 24, 2024
著者: Sara Papi, Peter Polak, Ondřej Bojar, Dominik Macháček
cs.AI
要旨
同時音声テキスト変換(SimulST)は、話者の音声と同時にソース言語の音声をターゲット言語のテキストに変換し、ユーザーの理解を向上させるための低遅延を確保します。この技術は、無制限の音声に適用されることを意図していますが、ほとんどの研究は人間によって事前に区切られた音声に焦点を当てており、課題を簡略化し、重要な課題を見落としています。この狭い焦点は、広範な用語の不一致と組み合わさることで、研究成果の実世界への適用を制限し、結果として分野の進歩を妨げています。私たちが行った110の論文の包括的な文献レビューは、現在の研究におけるこれらの重要な問題を明らかにするだけでなく、私たちの主要な貢献の基盤となっています。具体的には、1)SimulSTシステムの手順と主要コンポーネントを定義し、標準化された用語と分類法を提案します。2)コミュニティのトレンドを徹底的に分析し、3)評価フレームワークからシステムアーキテクチャまで、既存文献のギャップを埋めるための具体的な推奨事項と将来の方向性を提供し、より現実的で効果的なSimulSTソリューションへの分野の進展を促進します。
English
Simultaneous speech-to-text translation (SimulST) translates source-language
speech into target-language text concurrently with the speaker's speech,
ensuring low latency for better user comprehension. Despite its intended
application to unbounded speech, most research has focused on human
pre-segmented speech, simplifying the task and overlooking significant
challenges. This narrow focus, coupled with widespread terminological
inconsistencies, is limiting the applicability of research outcomes to
real-world applications, ultimately hindering progress in the field. Our
extensive literature review of 110 papers not only reveals these critical
issues in current research but also serves as the foundation for our key
contributions. We 1) define the steps and core components of a SimulST system,
proposing a standardized terminology and taxonomy; 2) conduct a thorough
analysis of community trends, and 3) offer concrete recommendations and future
directions to bridge the gaps in existing literature, from evaluation
frameworks to system architectures, for advancing the field towards more
realistic and effective SimulST solutions.Summary
AI-Generated Summary