Réflexion-Bench : sonder l'intelligence de l'IA avec la réflexion
Reflection-Bench: probing AI intelligence with reflection
October 21, 2024
Auteurs: Lingyu Li, Yixu Wang, Haiquan Zhao, Shuqi Kong, Yan Teng, Chunbo Li, Yingchun Wang
cs.AI
Résumé
La capacité d'adapter les croyances ou les comportements en réponse à des résultats inattendus, la réflexion, est fondamentale pour l'interaction des systèmes intelligents avec le monde. D'un point de vue des sciences cognitives, cela constitue un principe fondamental de l'intelligence applicable aux systèmes humains et IA. Pour aborder le débat sur l'intelligence des grands modèles de langage (GML), nous proposons Réflexion-Bench, un banc d'essai complet comprenant 7 tâches couvrant les fonctions cognitives de base cruciales pour la réflexion, notamment la perception, la mémoire, la mise à jour des croyances, la prise de décision, la prédiction, la pensée contrefactuelle et la méta-réflexion. Nous évaluons les performances de 13 GML de premier plan tels que OpenAI o1, GPT-4, Claude 3.5 Sonnet, etc. Les résultats indiquent que les GML actuels manquent encore de capacité de réflexion satisfaisante. Nous discutons des causes sous-jacentes de ces résultats et suggérons des pistes potentielles pour des recherches futures. En conclusion, Réflexion-Bench offre à la fois des outils d'évaluation et de l'inspiration pour développer une IA capable d'interagir de manière fiable avec l'environnement. Nos données et notre code sont disponibles sur https://github.com/YabYum/ReflectionBench.
English
The ability to adapt beliefs or behaviors in response to unexpected outcomes,
reflection, is fundamental to intelligent systems' interaction with the world.
From a cognitive science perspective, this serves as a core principle of
intelligence applicable to both human and AI systems. To address the debate on
the intelligence of large language models (LLMs), we propose Reflection-Bench,
a comprehensive benchmark comprising 7 tasks spanning core cognitive functions
crucial for reflection, including perception, memory, belief updating,
decision-making, prediction, counterfactual thinking, and meta-reflection. We
evaluate the performances of 13 prominent LLMs such as OpenAI o1, GPT-4, Claude
3.5 Sonnet, etc. The results indicate that current LLMs still lack satisfactory
reflection ability. We discuss the underlying causes of these results and
suggest potential avenues for future research. In conclusion, Reflection-Bench
offers both evaluation tools and inspiration for developing AI capable of
reliably interacting with the environment. Our data and code are available at
https://github.com/YabYum/ReflectionBench.Summary
AI-Generated Summary