Estabelecendo Fundamentos para o Processamento de Linguagem Natural do Turco Histórico: Recursos e Modelos
Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models
January 8, 2025
Autores: Şaziye Betül Özateş, Tarık Emre Tıraş, Ece Elif Adak, Berat Doğan, Fatih Burak Karagöz, Efe Eren Genç, Esma F. Bilgin Taşdemir
cs.AI
Resumo
Este artigo apresenta recursos e modelos fundamentais para o processamento de linguagem natural (PLN) do turco histórico, um domínio que tem sido pouco explorado na linguística computacional. Apresentamos o primeiro conjunto de dados de reconhecimento de entidades nomeadas (NER), HisTR, e o primeiro banco de árvores de Dependências Universais, OTA-BOUN, para uma forma histórica da língua turca, juntamente com modelos baseados em transformadores treinados usando esses conjuntos de dados para tarefas de reconhecimento de entidades nomeadas, análise de dependências e marcação de partes do discurso. Além disso, introduzimos o Corpus de Texto Otomano (OTC), um corpus limpo de textos históricos turcos transliterados que abrange uma ampla gama de períodos históricos. Nossos resultados experimentais mostram melhorias significativas na análise computacional do turco histórico, alcançando resultados promissores em tarefas que exigem compreensão das estruturas linguísticas históricas. Eles também destacam desafios existentes, como adaptação de domínio e variações linguísticas ao longo dos períodos de tempo. Todos os recursos e modelos apresentados estão disponíveis em https://huggingface.co/bucolin para servir como referência para futuros avanços no PLN do turco histórico.
English
This paper introduces foundational resources and models for natural language
processing (NLP) of historical Turkish, a domain that has remained
underexplored in computational linguistics. We present the first named entity
recognition (NER) dataset, HisTR and the first Universal Dependencies treebank,
OTA-BOUN for a historical form of the Turkish language along with
transformer-based models trained using these datasets for named entity
recognition, dependency parsing, and part-of-speech tagging tasks.
Additionally, we introduce Ottoman Text Corpus (OTC), a clean corpus of
transliterated historical Turkish texts that spans a wide range of historical
periods. Our experimental results show significant improvements in the
computational analysis of historical Turkish, achieving promising results in
tasks that require understanding of historical linguistic structures. They also
highlight existing challenges, such as domain adaptation and language
variations across time periods. All of the presented resources and models are
made available at https://huggingface.co/bucolin to serve as a benchmark for
future progress in historical Turkish NLP.Summary
AI-Generated Summary