Verità o Miraggio? Verso la Valutazione della Fattualità End-to-End con LLM-OASIS
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-OASIS
November 29, 2024
Autori: Alessandro Scirè, Andrei Stefan Bejgu, Simone Tedeschi, Karim Ghonim, Federico Martelli, Roberto Navigli
cs.AI
Abstract
Dopo l'introduzione dei Grandi Modelli Linguistici (LLM), si sono registrati notevoli miglioramenti nelle prestazioni dei compiti di Generazione del Linguaggio Naturale (NLG), inclusa la Riassunzione del Testo e la Traduzione Automatica. Tuttavia, i LLM continuano a produrre output contenenti allucinazioni, ossia contenuti non basati su informazioni factuali. Pertanto, lo sviluppo di metodi per valutare la factualità dei LLM è diventato urgente.
Infatti, di recente sono emersi risorse per la valutazione della factualità. Anche se sfidanti, queste risorse presentano una o più delle seguenti limitazioni: (i) sono adattate a un compito o dominio specifico; (ii) sono di dimensioni limitate, impedendo così la formazione di nuovi valutatori di factualità; (iii) sono progettate per compiti di verifica più semplici, come la verifica delle affermazioni.
Per affrontare questi problemi, presentiamo LLM-Oasis, a quanto ci risulta la più grande risorsa per addestrare valutatori di factualità end-to-end. LLM-Oasis è costruito estraendo affermazioni da Wikipedia, falsificando un sottoinsieme di queste affermazioni e generando coppie di testi factuali e non factuali. Ci affidiamo poi ad annotatori umani per convalidare la qualità del nostro dataset e creare un set di test standard per il benchmarking dei sistemi di valutazione della factualità.
I nostri esperimenti dimostrano che LLM-Oasis rappresenta una sfida significativa per i LLM all'avanguardia, con GPT-4o che raggiunge fino al 60% di accuratezza nel nostro proposto compito di valutazione della factualità end-to-end, evidenziandone il potenziale per guidare la ricerca futura nel campo.
English
After the introduction of Large Language Models (LLMs), there have been
substantial improvements in the performance of Natural Language Generation
(NLG) tasks, including Text Summarization and Machine Translation. However,
LLMs still produce outputs containing hallucinations, that is, content not
grounded in factual information. Therefore, developing methods to assess the
factuality of LLMs has become urgent.
Indeed, resources for factuality evaluation have recently emerged. Although
challenging, these resources face one or more of the following limitations: (i)
they are tailored to a specific task or domain; (ii) they are limited in size,
thereby preventing the training of new factuality evaluators; (iii) they are
designed for simpler verification tasks, such as claim verification.
To address these issues, we introduce LLM-Oasis, to the best of our knowledge
the largest resource for training end-to-end factuality evaluators. LLM-Oasis
is constructed by extracting claims from Wikipedia, falsifying a subset of
these claims, and generating pairs of factual and unfactual texts. We then rely
on human annotators to both validate the quality of our dataset and to create a
gold standard test set for benchmarking factuality evaluation systems.
Our experiments demonstrate that LLM-Oasis presents a significant challenge
for state-of-the-art LLMs, with GPT-4o achieving up to 60% accuracy in our
proposed end-to-end factuality evaluation task, highlighting its potential to
drive future research in the field.Summary
AI-Generated Summary