Les détecteurs d'IA sont-ils suffisamment performants ? Une enquête sur la qualité des ensembles de données contenant des textes générés par des machines.
Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts
October 18, 2024
Auteurs: German Gritsai, Anastasia Voznyuk, Andrey Grabovoy, Yury Chekhovich
cs.AI
Résumé
Le développement rapide des grands modèles de langage autorégressifs (LLMs) a considérablement amélioré la qualité des textes générés, nécessitant des détecteurs de texte généré par machine fiables. Un grand nombre de détecteurs et de collections contenant des fragments d'IA ont émergé, et plusieurs méthodes de détection ont même montré une qualité de reconnaissance allant jusqu'à 99,9 % selon les métriques cibles dans de telles collections. Cependant, la qualité de ces détecteurs a tendance à chuter de manière significative dans des conditions réelles, posant la question : les détecteurs sont-ils réellement très fiables ou leurs scores de référence élevés proviennent-ils de la mauvaise qualité des ensembles de données d'évaluation ? Dans cet article, nous soulignons le besoin de méthodes robustes et qualitatives pour évaluer les données générées afin d'être protégé contre les biais et la faible capacité de généralisation des futurs modèles. Nous présentons une revue systématique des ensembles de données provenant de compétitions dédiées à la détection de contenu généré par IA et proposons des méthodes pour évaluer la qualité des ensembles de données contenant des fragments générés par IA. De plus, nous discutons de la possibilité d'utiliser des données générées de haute qualité pour atteindre deux objectifs : améliorer la formation des modèles de détection et améliorer les ensembles de données d'entraînement eux-mêmes. Notre contribution vise à faciliter une meilleure compréhension de la dynamique entre le texte humain et machine, ce qui soutiendra finalement l'intégrité de l'information dans un monde de plus en plus automatisé.
English
The rapid development of autoregressive Large Language Models (LLMs) has
significantly improved the quality of generated texts, necessitating reliable
machine-generated text detectors. A huge number of detectors and collections
with AI fragments have emerged, and several detection methods even showed
recognition quality up to 99.9% according to the target metrics in such
collections. However, the quality of such detectors tends to drop dramatically
in the wild, posing a question: Are detectors actually highly trustworthy or do
their high benchmark scores come from the poor quality of evaluation datasets?
In this paper, we emphasise the need for robust and qualitative methods for
evaluating generated data to be secure against bias and low generalising
ability of future model. We present a systematic review of datasets from
competitions dedicated to AI-generated content detection and propose methods
for evaluating the quality of datasets containing AI-generated fragments. In
addition, we discuss the possibility of using high-quality generated data to
achieve two goals: improving the training of detection models and improving the
training datasets themselves. Our contribution aims to facilitate a better
understanding of the dynamics between human and machine text, which will
ultimately support the integrity of information in an increasingly automated
world.Summary
AI-Generated Summary