Il Test Impossibile: Un Dataset Insolubile del 2024 e una Possibilità per un AGI Quiz
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz
November 20, 2024
Autori: David Noever, Forrest McKee
cs.AI
Abstract
Questa ricerca introduce un nuovo quadro di valutazione progettato per valutare la capacità dei grandi modelli linguistici (LLM) di riconoscere l'incertezza su 675 problemi fondamentalmente insolubili. Utilizzando un dataset curato di domande sfide di livello universitario con risposte intenzionalmente ignote, abbiamo valutato dodici LLM all'avanguardia, inclusi modelli open source e closed source, sulla propensione a ammettere l'ignoranza piuttosto che generare risposte plausibili ma errate. I migliori modelli hanno ottenuto punteggi nell'intervallo di accuratezza del 62-68% nel riconoscere che la soluzione del problema era sconosciuta in campi che vanno dalla biologia alla filosofia e alla matematica. Abbiamo osservato una relazione inversa tra la difficoltà del problema e l'accuratezza del modello, con il GPT-4 che ha dimostrato tassi più elevati di riconoscimento dell'incertezza su problemi più impegnativi (35,8%) rispetto a quelli più semplici (20,0%). Questo modello indica che i modelli potrebbero essere più inclini a generare risposte speculative quando i problemi sembrano più trattabili. Lo studio ha anche rivelato variazioni significative tra le categorie di problemi, con i modelli che mostrano difficoltà nel riconoscere l'incertezza nei problemi di invenzione e NP-hard, mentre si comportano relativamente meglio nelle sfide filosofiche e psicologiche. Questi risultati contribuiscono al crescente corpo di ricerca sull'intelligenza artificiale generale (AGI) evidenziando l'importanza del riconoscimento dell'incertezza come componente critica della valutazione futura dell'intelligenza artificiale. Questo test di impossibilità estende quindi i precedenti quadri teorici per il test dell'intelligenza universale fornendo prove empiriche delle attuali limitazioni nella capacità dei LLM di riconoscere i propri limiti di conoscenza, suggerendo nuove direzioni per migliorare le architetture di addestramento dei modelli e gli approcci di valutazione.
English
This research introduces a novel evaluation framework designed to assess
large language models' (LLMs) ability to acknowledge uncertainty on 675
fundamentally unsolvable problems. Using a curated dataset of graduate-level
grand challenge questions with intentionally unknowable answers, we evaluated
twelve state-of-the-art LLMs, including both open and closed-source models, on
their propensity to admit ignorance rather than generate plausible but
incorrect responses. The best models scored in 62-68% accuracy ranges for
admitting the problem solution was unknown in fields ranging from biology to
philosophy and mathematics. We observed an inverse relationship between problem
difficulty and model accuracy, with GPT-4 demonstrating higher rates of
uncertainty acknowledgment on more challenging problems (35.8%) compared to
simpler ones (20.0%). This pattern indicates that models may be more prone to
generate speculative answers when problems appear more tractable. The study
also revealed significant variations across problem categories, with models
showing difficulty in acknowledging uncertainty in invention and NP-hard
problems while performing relatively better on philosophical and psychological
challenges. These results contribute to the growing body of research on
artificial general intelligence (AGI) assessment by highlighting the importance
of uncertainty recognition as a critical component of future machine
intelligence evaluation. This impossibility test thus extends previous
theoretical frameworks for universal intelligence testing by providing
empirical evidence of current limitations in LLMs' ability to recognize their
own knowledge boundaries, suggesting new directions for improving model
training architectures and evaluation approaches.Summary
AI-Generated Summary