Reflection-Bench: sondare l'intelligenza dell'IA con la riflessione
Reflection-Bench: probing AI intelligence with reflection
October 21, 2024
Autori: Lingyu Li, Yixu Wang, Haiquan Zhao, Shuqi Kong, Yan Teng, Chunbo Li, Yingchun Wang
cs.AI
Abstract
La capacità di adattare credenze o comportamenti in risposta a esiti inaspettati, la riflessione, è fondamentale per l'interazione dei sistemi intelligenti con il mondo. Da una prospettiva delle scienze cognitive, ciò rappresenta un principio fondamentale dell'intelligenza applicabile sia ai sistemi umani che a quelli di intelligenza artificiale (IA). Per affrontare il dibattito sull'intelligenza dei grandi modelli linguistici (LLM), proponiamo Reflection-Bench, un benchmark completo che comprende 7 compiti che spaziano dalle funzioni cognitive di base cruciali per la riflessione, tra cui percezione, memoria, aggiornamento delle credenze, presa di decisioni, previsione, pensiero controfattuale e meta-riflessione. Valutiamo le performance di 13 prominenti LLM come OpenAI o1, GPT-4, Claude 3.5 Sonnet, ecc. I risultati indicano che gli attuali LLM mancano ancora di capacità di riflessione soddisfacenti. Discutiamo le cause sottostanti di questi risultati e suggeriamo possibili percorsi per futuri studi. In conclusione, Reflection-Bench offre strumenti di valutazione e ispirazione per lo sviluppo di IA in grado di interagire in modo affidabile con l'ambiente. I nostri dati e codici sono disponibili su https://github.com/YabYum/ReflectionBench.
English
The ability to adapt beliefs or behaviors in response to unexpected outcomes,
reflection, is fundamental to intelligent systems' interaction with the world.
From a cognitive science perspective, this serves as a core principle of
intelligence applicable to both human and AI systems. To address the debate on
the intelligence of large language models (LLMs), we propose Reflection-Bench,
a comprehensive benchmark comprising 7 tasks spanning core cognitive functions
crucial for reflection, including perception, memory, belief updating,
decision-making, prediction, counterfactual thinking, and meta-reflection. We
evaluate the performances of 13 prominent LLMs such as OpenAI o1, GPT-4, Claude
3.5 Sonnet, etc. The results indicate that current LLMs still lack satisfactory
reflection ability. We discuss the underlying causes of these results and
suggest potential avenues for future research. In conclusion, Reflection-Bench
offers both evaluation tools and inspiration for developing AI capable of
reliably interacting with the environment. Our data and code are available at
https://github.com/YabYum/ReflectionBench.Summary
AI-Generated Summary