Quanto è "reale" il tuo sistema di traduzione simultanea del parlato in tempo reale?

Abstract

La traduzione simultanea del discorso in testo (SimulST) traduce il discorso nella lingua di origine in testo nella lingua di destinazione contemporaneamente al discorso del parlante, garantendo una bassa latenza per una migliore comprensione dell'utente. Nonostante la sua applicazione prevista al discorso illimitato, la maggior parte delle ricerche si è concentrata sul discorso umano pre-segmentato, semplificando il compito e trascurando sfide significative. Questo focus limitato, unito a diffusi problemi di inconsistenza terminologica, sta limitando l'applicabilità dei risultati della ricerca alle applicazioni reali, ostacolando infine il progresso nel settore. La nostra approfondita revisione della letteratura di 110 articoli non solo mette in luce questi problemi critici nella ricerca attuale, ma costituisce anche la base per i nostri contributi chiave. 1) Definiamo i passaggi e i componenti principali di un sistema SimulST, proponendo una terminologia standardizzata e una tassonomia; 2) conduciamo un'analisi approfondita delle tendenze della comunità e 3) offriamo raccomandazioni concrete e indicazioni future per colmare le lacune nella letteratura esistente, dai framework di valutazione alle architetture di sistema, per far progredire il settore verso soluzioni SimulST più realistiche ed efficaci.

English

Simultaneous speech-to-text translation (SimulST) translates source-language speech into target-language text concurrently with the speaker's speech, ensuring low latency for better user comprehension. Despite its intended application to unbounded speech, most research has focused on human pre-segmented speech, simplifying the task and overlooking significant challenges. This narrow focus, coupled with widespread terminological inconsistencies, is limiting the applicability of research outcomes to real-world applications, ultimately hindering progress in the field. Our extensive literature review of 110 papers not only reveals these critical issues in current research but also serves as the foundation for our key contributions. We 1) define the steps and core components of a SimulST system, proposing a standardized terminology and taxonomy; 2) conduct a thorough analysis of community trends, and 3) offer concrete recommendations and future directions to bridge the gaps in existing literature, from evaluation frameworks to system architectures, for advancing the field towards more realistic and effective SimulST solutions.

Quanto è "reale" il tuo sistema di traduzione simultanea del parlato in tempo reale?

How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?

Abstract

Support