WikiNER-fr-gold: 골드 표준 NER 말뭉치

WikiNER-fr-gold: A Gold-Standard NER Corpus

October 29, 2024
저자: Danrun Cao, Nicolas Béchet, Pierre-François Marteau
cs.AI

초록

본 논문에서는 다국어 Named Entity Recognition 말뭉치인 WikiNER 말뭉치의 품질을 다루며, 이를 통합된 버전으로 제공합니다. WikiNER의 주석은 반자동 방식으로 생성되었으며, 사후 수동 확인 작업은 수행되지 않았습니다. 이러한 말뭉치는 은색 표준이라고 합니다. 본 논문에서는 WikiNER의 프랑스어 부분의 수정된 버전인 WikiNER-fr-gold를 제안합니다. 저희 말뭉치는 원래의 프랑스어 하위 말뭉치(26,818 문장, 700k 토큰)의 무작위 샘플링된 20%로 구성되어 있습니다. 우리는 각 범주에 포함된 개체 유형을 요약하여 주석 가이드라인을 정의한 후 말뭉치를 수정하는 작업을 시작합니다. 마지막으로, WikiNER-fr 말뭉치에서 관찰된 오류와 불일치에 대한 분석을 제시하고, 잠재적인 향후 작업 방향에 대해 논의합니다.
English
We address in this article the the quality of the WikiNER corpus, a multilingual Named Entity Recognition corpus, and provide a consolidated version of it. The annotation of WikiNER was produced in a semi-supervised manner i.e. no manual verification has been carried out a posteriori. Such corpus is called silver-standard. In this paper we propose WikiNER-fr-gold which is a revised version of the French proportion of WikiNER. Our corpus consists of randomly sampled 20% of the original French sub-corpus (26,818 sentences with 700k tokens). We start by summarizing the entity types included in each category in order to define an annotation guideline, and then we proceed to revise the corpus. Finally we present an analysis of errors and inconsistency observed in the WikiNER-fr corpus, and we discuss potential future work directions.

Summary

AI-Generated Summary

PDF44November 13, 2024