ChatPaper.aiChatPaper

실시간 동시 음성-텍스트 번역 시스템의 "실제성"은 얼마나 됩니까?

How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?

December 24, 2024
저자: Sara Papi, Peter Polak, Ondřej Bojar, Dominik Macháček
cs.AI

초록

동시 음성-텍스트 번역(SimulST)은 원천 언어 음성을 화자의 발화와 동시에 대상 언어 텍스트로 번역하여 사용자 이해를 높이기 위해 낮은 지연 시간을 보장합니다. 비록 이 기술이 무제한 발화에 적용되도록 의도되었지만, 대부분의 연구는 인간에 의해 사전 분할된 음성에 초점을 맞추어 작업을 단순화하고 중요한 도전 과제를 간과하고 있습니다. 이 좁은 초점은 널리 퍼져 있는 용어적 불일치와 결합되어, 연구 결과의 적용 가능성을 제한하고 궁극적으로 이 분야의 진전을 방해하고 있습니다. 우리의 110편의 논문을 포함한 방대한 문헌 검토는 현재 연구에서 이러한 중요한 문제를 밝혀냄과 동시에 우리의 주요 기여의 기초로 기능합니다. 우리는 1) SimulST 시스템의 단계와 핵심 구성 요소를 정의하고, 표준 용어 및 분류법을 제안합니다; 2) 커뮤니티 트렌드를 철저히 분석하며, 3) 평가 프레임워크부터 시스템 아키텍처에 이르기까지 기존 문헌의 간극을 메우기 위한 구체적인 권고사항과 미래 방향을 제시하여, 보다 현실적이고 효과적인 SimulST 솔루션으로 분야를 발전시키기 위한 발걸음을 내딛습니다.
English
Simultaneous speech-to-text translation (SimulST) translates source-language speech into target-language text concurrently with the speaker's speech, ensuring low latency for better user comprehension. Despite its intended application to unbounded speech, most research has focused on human pre-segmented speech, simplifying the task and overlooking significant challenges. This narrow focus, coupled with widespread terminological inconsistencies, is limiting the applicability of research outcomes to real-world applications, ultimately hindering progress in the field. Our extensive literature review of 110 papers not only reveals these critical issues in current research but also serves as the foundation for our key contributions. We 1) define the steps and core components of a SimulST system, proposing a standardized terminology and taxonomy; 2) conduct a thorough analysis of community trends, and 3) offer concrete recommendations and future directions to bridge the gaps in existing literature, from evaluation frameworks to system architectures, for advancing the field towards more realistic and effective SimulST solutions.

Summary

AI-Generated Summary

PDF82December 26, 2024