AntiLeak-Bench: Prevenindo a Contaminação de Dados por meio da Construção Automática de Bancos de Teste com Conhecimento Atualizado do Mundo Real

AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge

December 18, 2024
Autores: Xiaobao Wu, Liangming Pan, Yuxi Xie, Ruiwen Zhou, Shuai Zhao, Yubo Ma, Mingzhe Du, Rui Mao, Anh Tuan Luu, William Yang Wang
cs.AI

Resumo

A contaminação de dados dificulta a avaliação justa de LLM ao introduzir dados de teste nos conjuntos de treinamento de modelos mais recentes. Estudos existentes resolvem esse desafio atualizando benchmarks com dados recém-coletados. No entanto, eles não conseguem garantir uma avaliação livre de contaminação, uma vez que os dados recém-coletados podem conter conhecimento pré-existente, e suas atualizações de benchmark dependem de um trabalho humano intensivo. Para abordar essas questões, neste artigo propomos o AntiLeak-Bench, um framework automatizado de benchmarking anti-vazamento. Em vez de simplesmente usar dados recém-coletados, construímos amostras com conhecimento explicitamente novo ausente nos conjuntos de treinamento de LLMs, garantindo assim uma avaliação estritamente livre de contaminação. Além disso, projetamos um fluxo de trabalho totalmente automatizado para construir e atualizar nosso benchmark sem trabalho humano, reduzindo significativamente o custo de manutenção do benchmark para acomodar LLMs emergentes. Através de experimentos extensivos, destacamos que a contaminação de dados provavelmente existe antes do tempo limite dos LLMs e demonstramos que o AntiLeak-Bench supera efetivamente esse desafio.
English
Data contamination hinders fair LLM evaluation by introducing test data into newer models' training sets. Existing studies solve this challenge by updating benchmarks with newly collected data. However, they fail to guarantee contamination-free evaluation as the newly collected data may contain pre-existing knowledge, and their benchmark updates rely on intensive human labor. To address these issues, we in this paper propose AntiLeak-Bench, an automated anti-leakage benchmarking framework. Instead of simply using newly collected data, we construct samples with explicitly new knowledge absent from LLMs' training sets, which thus ensures strictly contamination-free evaluation. We further design a fully automated workflow to build and update our benchmark without human labor. This significantly reduces the cost of benchmark maintenance to accommodate emerging LLMs. Through extensive experiments, we highlight that data contamination likely exists before LLMs' cutoff time and demonstrate AntiLeak-Bench effectively overcomes this challenge.

Summary

AI-Generated Summary

PDF42December 19, 2024