Estabelecendo Fundamentos para o Processamento de Linguagem Natural do Turco Histórico: Recursos e Modelos

Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models

January 8, 2025
Autores: Şaziye Betül Özateş, Tarık Emre Tıraş, Ece Elif Adak, Berat Doğan, Fatih Burak Karagöz, Efe Eren Genç, Esma F. Bilgin Taşdemir
cs.AI

Resumo

Este artigo apresenta recursos e modelos fundamentais para o processamento de linguagem natural (PLN) do turco histórico, um domínio que tem sido pouco explorado na linguística computacional. Apresentamos o primeiro conjunto de dados de reconhecimento de entidades nomeadas (NER), HisTR, e o primeiro banco de árvores de Dependências Universais, OTA-BOUN, para uma forma histórica da língua turca, juntamente com modelos baseados em transformadores treinados usando esses conjuntos de dados para tarefas de reconhecimento de entidades nomeadas, análise de dependências e marcação de partes do discurso. Além disso, introduzimos o Corpus de Texto Otomano (OTC), um corpus limpo de textos históricos turcos transliterados que abrange uma ampla gama de períodos históricos. Nossos resultados experimentais mostram melhorias significativas na análise computacional do turco histórico, alcançando resultados promissores em tarefas que exigem compreensão das estruturas linguísticas históricas. Eles também destacam desafios existentes, como adaptação de domínio e variações linguísticas ao longo dos períodos de tempo. Todos os recursos e modelos apresentados estão disponíveis em https://huggingface.co/bucolin para servir como referência para futuros avanços no PLN do turco histórico.
English
This paper introduces foundational resources and models for natural language processing (NLP) of historical Turkish, a domain that has remained underexplored in computational linguistics. We present the first named entity recognition (NER) dataset, HisTR and the first Universal Dependencies treebank, OTA-BOUN for a historical form of the Turkish language along with transformer-based models trained using these datasets for named entity recognition, dependency parsing, and part-of-speech tagging tasks. Additionally, we introduce Ottoman Text Corpus (OTC), a clean corpus of transliterated historical Turkish texts that spans a wide range of historical periods. Our experimental results show significant improvements in the computational analysis of historical Turkish, achieving promising results in tasks that require understanding of historical linguistic structures. They also highlight existing challenges, such as domain adaptation and language variations across time periods. All of the presented resources and models are made available at https://huggingface.co/bucolin to serve as a benchmark for future progress in historical Turkish NLP.

Summary

AI-Generated Summary

PDF113January 10, 2025