Zijn AI-detectoren goed genoeg? Een enquête over de kwaliteit van datasets met door machines gegenereerde teksten.

Samenvatting

De snelle ontwikkeling van autoregressieve Large Language Models (LLM's) heeft de kwaliteit van gegenereerde teksten aanzienlijk verbeterd, wat betrouwbare machine-gegenereerde tekst detectoren noodzakelijk maakt. Er zijn een groot aantal detectoren en verzamelingen met AI-fragmenten ontstaan, en verschillende detectiemethoden hebben zelfs een herkenningskwaliteit tot 99,9% laten zien volgens de doelmetrieken in dergelijke verzamelingen. Echter, de kwaliteit van dergelijke detectoren neigt sterk te dalen in de praktijk, wat de vraag oproept: Zijn detectoren eigenlijk zeer betrouwbaar of komen hun hoge benchmark scores voort uit de lage kwaliteit van evaluatiedatasets? In dit artikel benadrukken we de noodzaak van robuuste en kwalitatieve methoden voor het evalueren van gegenereerde data om veilig te zijn tegen vooringenomenheid en een lage generaliserende capaciteit van toekomstige modellen. We presenteren een systematische review van datasets van competities gewijd aan het detecteren van door AI gegenereerde inhoud en stellen methoden voor om de kwaliteit van datasets met AI-gegenereerde fragmenten te evalueren. Daarnaast bespreken we de mogelijkheid om hoogwaardige gegenereerde data te gebruiken om twee doelen te bereiken: het verbeteren van de training van detectiemodellen en het verbeteren van de trainingsdatasets zelf. Onze bijdrage heeft tot doel een beter begrip van de dynamiek tussen menselijke en machinale tekst te vergemakkelijken, wat uiteindelijk de integriteit van informatie in een steeds meer geautomatiseerde wereld zal ondersteunen.

English

The rapid development of autoregressive Large Language Models (LLMs) has significantly improved the quality of generated texts, necessitating reliable machine-generated text detectors. A huge number of detectors and collections with AI fragments have emerged, and several detection methods even showed recognition quality up to 99.9% according to the target metrics in such collections. However, the quality of such detectors tends to drop dramatically in the wild, posing a question: Are detectors actually highly trustworthy or do their high benchmark scores come from the poor quality of evaluation datasets? In this paper, we emphasise the need for robust and qualitative methods for evaluating generated data to be secure against bias and low generalising ability of future model. We present a systematic review of datasets from competitions dedicated to AI-generated content detection and propose methods for evaluating the quality of datasets containing AI-generated fragments. In addition, we discuss the possibility of using high-quality generated data to achieve two goals: improving the training of detection models and improving the training datasets themselves. Our contribution aims to facilitate a better understanding of the dynamics between human and machine text, which will ultimately support the integrity of information in an increasingly automated world.

Zijn AI-detectoren goed genoeg? Een enquête over de kwaliteit van datasets met door machines gegenereerde teksten.

Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts

Samenvatting

Summary

Support