Quão "real" é o seu sistema de tradução de fala para texto simultânea em tempo real?

How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?

December 24, 2024
Autores: Sara Papi, Peter Polak, Ondřej Bojar, Dominik Macháček
cs.AI

Resumo

A tradução simultânea de fala para texto (SimulST) traduz a fala no idioma de origem em texto no idioma de destino de forma simultânea com a fala do locutor, garantindo baixa latência para uma melhor compreensão do usuário. Apesar de sua aplicação prevista para fala ilimitada, a maioria das pesquisas tem se concentrado em fala pré-segmentada por humanos, simplificando a tarefa e ignorando desafios significativos. Esse foco restrito, aliado a inconsistências terminológicas generalizadas, está limitando a aplicabilidade dos resultados de pesquisa em aplicações do mundo real, dificultando o progresso no campo. Nossa extensa revisão da literatura de 110 artigos não apenas revela essas questões críticas na pesquisa atual, mas também serve como base para nossas principais contribuições. Nós 1) definimos os passos e componentes principais de um sistema SimulST, propondo uma terminologia padronizada e taxonomia; 2) realizamos uma análise minuciosa das tendências da comunidade e 3) oferecemos recomendações concretas e direções futuras para preencher as lacunas na literatura existente, desde estruturas de avaliação até arquiteturas de sistemas, para avançar o campo em direção a soluções SimulST mais realistas e eficazes.
English
Simultaneous speech-to-text translation (SimulST) translates source-language speech into target-language text concurrently with the speaker's speech, ensuring low latency for better user comprehension. Despite its intended application to unbounded speech, most research has focused on human pre-segmented speech, simplifying the task and overlooking significant challenges. This narrow focus, coupled with widespread terminological inconsistencies, is limiting the applicability of research outcomes to real-world applications, ultimately hindering progress in the field. Our extensive literature review of 110 papers not only reveals these critical issues in current research but also serves as the foundation for our key contributions. We 1) define the steps and core components of a SimulST system, proposing a standardized terminology and taxonomy; 2) conduct a thorough analysis of community trends, and 3) offer concrete recommendations and future directions to bridge the gaps in existing literature, from evaluation frameworks to system architectures, for advancing the field towards more realistic and effective SimulST solutions.

Summary

AI-Generated Summary

PDF82December 26, 2024