LLM을 활용한 음소표기법에서 음운으로의 변환: 벤치마크 및 사례 연구
LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study
September 13, 2024
저자: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI
초록
그래피음 대 음운 (Grapheme-to-phoneme, G2P) 변환은 음성 처리에서 중요하며, 특히 음성 합성과 같은 응용 프로그램에 있어서 중요합니다. G2P 시스템은 다의어 단어와 맥락에 따라 음소가 달라지는 언어의 언어학적 이해와 맥락 인식을 가져야 합니다. 대형 언어 모델 (Large language models, LLMs)은 최근 다양한 언어 작업에서 상당한 잠재력을 보여주어, 그들의 음성 지식이 G2P에 활용될 수 있다는 가능성을 시사합니다. 본 논문에서는 LLMs의 G2P 변환 성능을 평가하고, 추가적인 훈련이나 레이블이 달린 데이터 없이 LLM 출력을 향상시키는 프롬프팅(prompting) 및 후처리(post-processing) 방법을 소개합니다. 또한, 페르시아어 문장 수준의 음성적 도전 과제를 평가하기 위해 설계된 벤치마킹 데이터셋을 제시합니다. 우리의 결과는 제안된 방법을 적용함으로써 LLMs가 전통적인 G2P 도구를 능가할 수 있음을 보여주며, 페르시아어와 같은 소수 언어에서도 LLM 지원 G2P 시스템 개발의 잠재력을 강조합니다.
English
Grapheme-to-phoneme (G2P) conversion is critical in speech processing,
particularly for applications like speech synthesis. G2P systems must possess
linguistic understanding and contextual awareness of languages with polyphone
words and context-dependent phonemes. Large language models (LLMs) have
recently demonstrated significant potential in various language tasks,
suggesting that their phonetic knowledge could be leveraged for G2P. In this
paper, we evaluate the performance of LLMs in G2P conversion and introduce
prompting and post-processing methods that enhance LLM outputs without
additional training or labeled data. We also present a benchmarking dataset
designed to assess G2P performance on sentence-level phonetic challenges of the
Persian language. Our results show that by applying the proposed methods, LLMs
can outperform traditional G2P tools, even in an underrepresented language like
Persian, highlighting the potential of developing LLM-aided G2P systems.Summary
AI-Generated Summary