Quão "real" é o seu sistema de tradução de fala para texto simultânea em tempo real?
How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?
December 24, 2024
Autores: Sara Papi, Peter Polak, Ondřej Bojar, Dominik Macháček
cs.AI
Resumo
A tradução simultânea de fala para texto (SimulST) traduz a fala no idioma de origem em texto no idioma de destino de forma simultânea com a fala do locutor, garantindo baixa latência para uma melhor compreensão do usuário. Apesar de sua aplicação prevista para fala ilimitada, a maioria das pesquisas tem se concentrado em fala pré-segmentada por humanos, simplificando a tarefa e ignorando desafios significativos. Esse foco restrito, aliado a inconsistências terminológicas generalizadas, está limitando a aplicabilidade dos resultados de pesquisa em aplicações do mundo real, dificultando o progresso no campo. Nossa extensa revisão da literatura de 110 artigos não apenas revela essas questões críticas na pesquisa atual, mas também serve como base para nossas principais contribuições. Nós 1) definimos os passos e componentes principais de um sistema SimulST, propondo uma terminologia padronizada e taxonomia; 2) realizamos uma análise minuciosa das tendências da comunidade e 3) oferecemos recomendações concretas e direções futuras para preencher as lacunas na literatura existente, desde estruturas de avaliação até arquiteturas de sistemas, para avançar o campo em direção a soluções SimulST mais realistas e eficazes.
English
Simultaneous speech-to-text translation (SimulST) translates source-language
speech into target-language text concurrently with the speaker's speech,
ensuring low latency for better user comprehension. Despite its intended
application to unbounded speech, most research has focused on human
pre-segmented speech, simplifying the task and overlooking significant
challenges. This narrow focus, coupled with widespread terminological
inconsistencies, is limiting the applicability of research outcomes to
real-world applications, ultimately hindering progress in the field. Our
extensive literature review of 110 papers not only reveals these critical
issues in current research but also serves as the foundation for our key
contributions. We 1) define the steps and core components of a SimulST system,
proposing a standardized terminology and taxonomy; 2) conduct a thorough
analysis of community trends, and 3) offer concrete recommendations and future
directions to bridge the gaps in existing literature, from evaluation
frameworks to system architectures, for advancing the field towards more
realistic and effective SimulST solutions.Summary
AI-Generated Summary