WikiNER-fr-gold : un corpus NER de référence

WikiNER-fr-gold: A Gold-Standard NER Corpus

October 29, 2024
Auteurs: Danrun Cao, Nicolas Béchet, Pierre-François Marteau
cs.AI

Résumé

Dans cet article, nous abordons la qualité du corpus WikiNER, un corpus de reconnaissance d'entités nommées multilingue, et fournissons une version consolidée de celui-ci. L'annotation de WikiNER a été réalisée de manière semi-supervisée, c'est-à-dire qu'aucune vérification manuelle n'a été effectuée a posteriori. Un tel corpus est appelé norme argent. Dans cet article, nous proposons WikiNER-fr-gold, qui est une version révisée de la partie française de WikiNER. Notre corpus se compose d'un échantillon aléatoire de 20 % du sous-corpus français d'origine (26 818 phrases avec 700 000 jetons). Nous commençons par résumer les types d'entités inclus dans chaque catégorie afin de définir un guide d'annotation, puis nous procédons à la révision du corpus. Enfin, nous présentons une analyse des erreurs et des incohérences observées dans le corpus WikiNER-fr, et nous discutons des orientations potentielles pour les travaux futurs.
English
We address in this article the the quality of the WikiNER corpus, a multilingual Named Entity Recognition corpus, and provide a consolidated version of it. The annotation of WikiNER was produced in a semi-supervised manner i.e. no manual verification has been carried out a posteriori. Such corpus is called silver-standard. In this paper we propose WikiNER-fr-gold which is a revised version of the French proportion of WikiNER. Our corpus consists of randomly sampled 20% of the original French sub-corpus (26,818 sentences with 700k tokens). We start by summarizing the entity types included in each category in order to define an annotation guideline, and then we proceed to revise the corpus. Finally we present an analysis of errors and inconsistency observed in the WikiNER-fr corpus, and we discuss potential future work directions.

Summary

AI-Generated Summary

PDF44November 13, 2024