Reflection-Bench: sondare l'intelligenza dell'IA con la riflessione

Abstract

La capacità di adattare credenze o comportamenti in risposta a esiti inaspettati, la riflessione, è fondamentale per l'interazione dei sistemi intelligenti con il mondo. Da una prospettiva delle scienze cognitive, ciò rappresenta un principio fondamentale dell'intelligenza applicabile sia ai sistemi umani che a quelli di intelligenza artificiale (IA). Per affrontare il dibattito sull'intelligenza dei grandi modelli linguistici (LLM), proponiamo Reflection-Bench, un benchmark completo che comprende 7 compiti che spaziano dalle funzioni cognitive di base cruciali per la riflessione, tra cui percezione, memoria, aggiornamento delle credenze, presa di decisioni, previsione, pensiero controfattuale e meta-riflessione. Valutiamo le performance di 13 prominenti LLM come OpenAI o1, GPT-4, Claude 3.5 Sonnet, ecc. I risultati indicano che gli attuali LLM mancano ancora di capacità di riflessione soddisfacenti. Discutiamo le cause sottostanti di questi risultati e suggeriamo possibili percorsi per futuri studi. In conclusione, Reflection-Bench offre strumenti di valutazione e ispirazione per lo sviluppo di IA in grado di interagire in modo affidabile con l'ambiente. I nostri dati e codici sono disponibili su https://github.com/YabYum/ReflectionBench.

English

The ability to adapt beliefs or behaviors in response to unexpected outcomes, reflection, is fundamental to intelligent systems' interaction with the world. From a cognitive science perspective, this serves as a core principle of intelligence applicable to both human and AI systems. To address the debate on the intelligence of large language models (LLMs), we propose Reflection-Bench, a comprehensive benchmark comprising 7 tasks spanning core cognitive functions crucial for reflection, including perception, memory, belief updating, decision-making, prediction, counterfactual thinking, and meta-reflection. We evaluate the performances of 13 prominent LLMs such as OpenAI o1, GPT-4, Claude 3.5 Sonnet, etc. The results indicate that current LLMs still lack satisfactory reflection ability. We discuss the underlying causes of these results and suggest potential avenues for future research. In conclusion, Reflection-Bench offers both evaluation tools and inspiration for developing AI capable of reliably interacting with the environment. Our data and code are available at https://github.com/YabYum/ReflectionBench.

Reflection-Bench: sondare l'intelligenza dell'IA con la riflessione

Reflection-Bench: probing AI intelligence with reflection

Abstract

Summary

Support