Identificare le carenze di conoscenza dei modelli linguistici su una base di conoscenza massiva
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base
March 30, 2025
Autori: Linxin Song, Xuwei Ding, Jieyu Zhang, Taiwei Shi, Ryotaro Shimizu, Rahul Gupta, Yang Liu, Jian Kang, Jieyu Zhao
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) possiedono impressionanti capacità linguistiche, ma spesso non riescono a conservare fedelmente le conoscenze fattuali, portando a allucinazioni e output inaffidabili. Comprendere le carenze conoscitive degli LLM attraverso una valutazione esaustiva rispetto a basi di conoscenza complete è computazionalmente proibitivo, specialmente per i modelli a pesi chiusi. Proponiamo lo Stochastic Error Ascent (SEA), un framework scalabile ed efficiente per individuare carenze conoscitive (errori) nei LLM a pesi chiusi con un budget di query rigoroso. Invece di sondare in modo ingenuo tutti i candidati di conoscenza, SEA formula la scoperta degli errori come un processo di ottimizzazione stocastica: recupera iterativamente nuovi candidati ad alto errore sfruttando la similarità semantica con i fallimenti precedentemente osservati. Per migliorare ulteriormente l'efficienza e la copertura della ricerca, SEA utilizza un recupero gerarchico a livello di documento e paragrafo, e costruisce un grafo aciclico diretto di relazioni per modellare la propagazione degli errori e identificare modalità di fallimento sistematiche. Empiricamente, SEA scopre 40,7 volte più errori conoscitivi rispetto all'Automated Capability Discovery e il 26,7% in più rispetto ad AutoBencher, riducendo il costo per errore rispettivamente di 599 e 9 volte. La valutazione umana conferma l'alta qualità delle domande generate, mentre le analisi di ablazione e convergenza validano il contributo di ciascun componente in SEA. Un'ulteriore analisi sugli errori scoperti rivela schemi di fallimento correlati tra famiglie di LLM e deficit ricorrenti, evidenziando la necessità di una migliore copertura dei dati e di un fine-tuning mirato nello sviluppo futuro degli LLM.
English
Large language models (LLMs) possess impressive linguistic capabilities but
often fail to faithfully retain factual knowledge, leading to hallucinations
and unreliable outputs. Understanding LLMs' knowledge deficiencies by
exhaustively evaluating against full-scale knowledge bases is computationally
prohibitive, especially for closed-weight models. We propose stochastic error
ascent (SEA), a scalable and efficient framework for discovering knowledge
deficiencies (errors) in closed-weight LLMs under a strict query budget. Rather
than naively probing all knowledge candidates, SEA formulates error discovery
as a stochastic optimization process: it iteratively retrieves new high-error
candidates by leveraging the semantic similarity to previously observed
failures. To further enhance search efficiency and coverage, SEA employs
hierarchical retrieval across document and paragraph levels, and constructs a
relation directed acyclic graph to model error propagation and identify
systematic failure modes. Empirically, SEA uncovers 40.7x more knowledge errors
than Automated Capability Discovery and 26.7% more than AutoBencher, while
reducing the cost-per-error by 599x and 9x, respectively. Human evaluation
confirms the high quality of generated questions, while ablation and
convergence analyses validate the contribution of each component in SEA.
Further analysis on the discovered errors reveals correlated failure patterns
across LLM families and recurring deficits, highlighting the need for better
data coverage and targeted fine-tuning in future LLM development.Summary
AI-Generated Summary