Non lo so: Modellazione esplicita dell'incertezza con un token [ND].
I Don't Know: Explicit Modeling of Uncertainty with an [IDK] Token
December 9, 2024
Autori: Roi Cohen, Konstantin Dobler, Eden Biran, Gerard de Melo
cs.AI
Abstract
I Large Language Models sono noti per catturare conoscenze del mondo reale, consentendo loro di eccellere in molte attività derivate. Nonostante i recenti progressi, questi modelli sono ancora inclini a ciò che sono comunemente conosciuti come allucinazioni, che li portano a emettere testi indesiderati e factualmente scorretti. In questo lavoro, proponiamo un nuovo metodo di calibrazione che può essere utilizzato per contrastare le allucinazioni. Aggiungiamo un token speciale [IDK] ("Non lo so") al vocabolario del modello e introduciamo una funzione obiettivo che sposta la massa di probabilità al token [IDK] per le previsioni errate. Questo approccio consente al modello di esprimere esplicitamente l'incertezza nel suo output. Valutiamo il nostro metodo proposto su diverse architetture di modelli e attività factuali derivate. Scopriamo che i modelli addestrati con il nostro metodo sono in grado di esprimere incertezza nei casi in cui in precedenza commettevano errori, subendo solo una piccola perdita di conoscenza codificata. Inoltre, conduciamo ampie analisi di ablazione su varie varianti del nostro approccio e forniamo un'analisi dettagliata del compromesso precisione-richiamo del nostro metodo.
English
Large Language Models are known to capture real-world knowledge, allowing
them to excel in many downstream tasks. Despite recent advances, these models
are still prone to what are commonly known as hallucinations, causing them to
emit unwanted and factually incorrect text. In this work, we propose a novel
calibration method that can be used to combat hallucinations. We add a special
[IDK] ("I don't know") token to the model's vocabulary and introduce an
objective function that shifts probability mass to the [IDK] token for
incorrect predictions. This approach allows the model to express uncertainty in
its output explicitly. We evaluate our proposed method across multiple model
architectures and factual downstream tasks. We find that models trained with
our method are able to express uncertainty in places where they would
previously make mistakes while suffering only a small loss of encoded
knowledge. We further perform extensive ablation studies of multiple variations
of our approach and provide a detailed analysis of the precision-recall
tradeoff of our method.Summary
AI-Generated Summary