
역사적 터키어의 자연어 처리를 위한 기반 구축: 자원과 모델

Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models

January 8, 2025
저자: Şaziye Betül Özateş, Tarık Emre Tıraş, Ece Elif Adak, Berat Doğan, Fatih Burak Karagöz, Efe Eren Genç, Esma F. Bilgin Taşdemir


본 논문은 계산언어학에서 미개척된 분야인 터키 역사 언어의 자연어 처리(NLP)를 위한 기본 자원과 모델을 소개합니다. 우리는 터키어의 역사적 형태를 위한 첫 번째 명명된 개체 인식(NER) 데이터셋인 HisTR과 첫 번째 Universal Dependencies 트리뱅크인 OTA-BOUN을 제시하며, 이러한 데이터셋을 활용하여 명명된 개체 인식, 의존 구문 분석 및 품사 태깅 작업을 위해 훈련된 트랜스포머 기반 모델을 소개합니다. 게다가, 우리는 다양한 역사적 시기를 아우르는 터키 역사 텍스트의 로마자 표기본인 Ottoman Text Corpus (OTC)를 소개합니다. 실험 결과는 역사적 터키어의 계산 분석에서 상당한 향상을 보여주며, 역사적 언어 구조를 이해해야 하는 작업에서 융통성 있는 결과를 달성합니다. 또한, 도메인 적응 및 시대별 언어 변형과 같은 기존의 어려움을 강조합니다. 제시된 모든 자원과 모델은 터키 역사 NLP의 미래 발전을 위한 기준으로 제공되며,에서 이용할 수 있습니다.
This paper introduces foundational resources and models for natural language processing (NLP) of historical Turkish, a domain that has remained underexplored in computational linguistics. We present the first named entity recognition (NER) dataset, HisTR and the first Universal Dependencies treebank, OTA-BOUN for a historical form of the Turkish language along with transformer-based models trained using these datasets for named entity recognition, dependency parsing, and part-of-speech tagging tasks. Additionally, we introduce Ottoman Text Corpus (OTC), a clean corpus of transliterated historical Turkish texts that spans a wide range of historical periods. Our experimental results show significant improvements in the computational analysis of historical Turkish, achieving promising results in tasks that require understanding of historical linguistic structures. They also highlight existing challenges, such as domain adaptation and language variations across time periods. All of the presented resources and models are made available at to serve as a benchmark for future progress in historical Turkish NLP.


AI-Generated Summary

PDF113January 10, 2025