Zijn AI-detectoren goed genoeg? Een enquête over de kwaliteit van datasets met door machines gegenereerde teksten.
Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts
October 18, 2024
Auteurs: German Gritsai, Anastasia Voznyuk, Andrey Grabovoy, Yury Chekhovich
cs.AI
Samenvatting
De snelle ontwikkeling van autoregressieve Large Language Models (LLM's) heeft de kwaliteit van gegenereerde teksten aanzienlijk verbeterd, wat betrouwbare machine-gegenereerde tekst detectoren noodzakelijk maakt. Er zijn een groot aantal detectoren en verzamelingen met AI-fragmenten ontstaan, en verschillende detectiemethoden hebben zelfs een herkenningskwaliteit tot 99,9% laten zien volgens de doelmetrieken in dergelijke verzamelingen. Echter, de kwaliteit van dergelijke detectoren neigt sterk te dalen in de praktijk, wat de vraag oproept: Zijn detectoren eigenlijk zeer betrouwbaar of komen hun hoge benchmark scores voort uit de lage kwaliteit van evaluatiedatasets? In dit artikel benadrukken we de noodzaak van robuuste en kwalitatieve methoden voor het evalueren van gegenereerde data om veilig te zijn tegen vooringenomenheid en een lage generaliserende capaciteit van toekomstige modellen. We presenteren een systematische review van datasets van competities gewijd aan het detecteren van door AI gegenereerde inhoud en stellen methoden voor om de kwaliteit van datasets met AI-gegenereerde fragmenten te evalueren. Daarnaast bespreken we de mogelijkheid om hoogwaardige gegenereerde data te gebruiken om twee doelen te bereiken: het verbeteren van de training van detectiemodellen en het verbeteren van de trainingsdatasets zelf. Onze bijdrage heeft tot doel een beter begrip van de dynamiek tussen menselijke en machinale tekst te vergemakkelijken, wat uiteindelijk de integriteit van informatie in een steeds meer geautomatiseerde wereld zal ondersteunen.
English
The rapid development of autoregressive Large Language Models (LLMs) has
significantly improved the quality of generated texts, necessitating reliable
machine-generated text detectors. A huge number of detectors and collections
with AI fragments have emerged, and several detection methods even showed
recognition quality up to 99.9% according to the target metrics in such
collections. However, the quality of such detectors tends to drop dramatically
in the wild, posing a question: Are detectors actually highly trustworthy or do
their high benchmark scores come from the poor quality of evaluation datasets?
In this paper, we emphasise the need for robust and qualitative methods for
evaluating generated data to be secure against bias and low generalising
ability of future model. We present a systematic review of datasets from
competitions dedicated to AI-generated content detection and propose methods
for evaluating the quality of datasets containing AI-generated fragments. In
addition, we discuss the possibility of using high-quality generated data to
achieve two goals: improving the training of detection models and improving the
training datasets themselves. Our contribution aims to facilitate a better
understanding of the dynamics between human and machine text, which will
ultimately support the integrity of information in an increasingly automated
world.Summary
AI-Generated Summary