WikiNER-fr-gold : un corpus NER de référence
WikiNER-fr-gold: A Gold-Standard NER Corpus
October 29, 2024
Auteurs: Danrun Cao, Nicolas Béchet, Pierre-François Marteau
cs.AI
Résumé
Dans cet article, nous abordons la qualité du corpus WikiNER, un corpus de reconnaissance d'entités nommées multilingue, et fournissons une version consolidée de celui-ci. L'annotation de WikiNER a été réalisée de manière semi-supervisée, c'est-à-dire qu'aucune vérification manuelle n'a été effectuée a posteriori. Un tel corpus est appelé norme argent. Dans cet article, nous proposons WikiNER-fr-gold, qui est une version révisée de la partie française de WikiNER. Notre corpus se compose d'un échantillon aléatoire de 20 % du sous-corpus français d'origine (26 818 phrases avec 700 000 jetons). Nous commençons par résumer les types d'entités inclus dans chaque catégorie afin de définir un guide d'annotation, puis nous procédons à la révision du corpus. Enfin, nous présentons une analyse des erreurs et des incohérences observées dans le corpus WikiNER-fr, et nous discutons des orientations potentielles pour les travaux futurs.
English
We address in this article the the quality of the WikiNER corpus, a
multilingual Named Entity Recognition corpus, and provide a consolidated
version of it. The annotation of WikiNER was produced in a semi-supervised
manner i.e. no manual verification has been carried out a posteriori. Such
corpus is called silver-standard. In this paper we propose WikiNER-fr-gold
which is a revised version of the French proportion of WikiNER. Our corpus
consists of randomly sampled 20% of the original French sub-corpus (26,818
sentences with 700k tokens). We start by summarizing the entity types included
in each category in order to define an annotation guideline, and then we
proceed to revise the corpus. Finally we present an analysis of errors and
inconsistency observed in the WikiNER-fr corpus, and we discuss potential
future work directions.Summary
AI-Generated Summary