Reflexionsbank: Erforschung der KI-Intelligenz durch Reflexion

Reflection-Bench: probing AI intelligence with reflection

October 21, 2024
Autoren: Lingyu Li, Yixu Wang, Haiquan Zhao, Shuqi Kong, Yan Teng, Chunbo Li, Yingchun Wang
cs.AI

Zusammenfassung

Die Fähigkeit, Überzeugungen oder Verhaltensweisen als Reaktion auf unerwartete Ergebnisse anzupassen, Reflexion genannt, ist grundlegend für die Interaktion intelligenter Systeme mit der Welt. Aus der Perspektive der Kognitionswissenschaft dient dies als ein Kernprinzip der Intelligenz, das sowohl auf menschliche als auch auf KI-Systeme anwendbar ist. Um die Debatte über die Intelligenz großer Sprachmodelle (LLMs) anzugehen, schlagen wir Reflection-Bench vor, einen umfassenden Benchmark, der 7 Aufgaben umfasst, die Kernfunktionen der Reflexion abdecken, darunter Wahrnehmung, Gedächtnis, Überzeugungsaktualisierung, Entscheidungsfindung, Vorhersage, kontrafaktisches Denken und Meta-Reflexion. Wir bewerten die Leistungen von 13 prominenten LLMs wie OpenAI o1, GPT-4, Claude 3.5 Sonnet usw. Die Ergebnisse deuten darauf hin, dass aktuelle LLMs immer noch über keine zufriedenstellende Reflexionsfähigkeit verfügen. Wir diskutieren die zugrunde liegenden Ursachen dieser Ergebnisse und schlagen potenzielle Ansätze für zukünftige Forschung vor. Abschließend bietet Reflection-Bench sowohl Evaluierungswerkzeuge als auch Inspiration für die Entwicklung KI-fähiger Systeme, die zuverlässig mit der Umgebung interagieren können. Unsere Daten und der Code sind unter https://github.com/YabYum/ReflectionBench verfügbar.
English
The ability to adapt beliefs or behaviors in response to unexpected outcomes, reflection, is fundamental to intelligent systems' interaction with the world. From a cognitive science perspective, this serves as a core principle of intelligence applicable to both human and AI systems. To address the debate on the intelligence of large language models (LLMs), we propose Reflection-Bench, a comprehensive benchmark comprising 7 tasks spanning core cognitive functions crucial for reflection, including perception, memory, belief updating, decision-making, prediction, counterfactual thinking, and meta-reflection. We evaluate the performances of 13 prominent LLMs such as OpenAI o1, GPT-4, Claude 3.5 Sonnet, etc. The results indicate that current LLMs still lack satisfactory reflection ability. We discuss the underlying causes of these results and suggest potential avenues for future research. In conclusion, Reflection-Bench offers both evaluation tools and inspiration for developing AI capable of reliably interacting with the environment. Our data and code are available at https://github.com/YabYum/ReflectionBench.

Summary

AI-Generated Summary

PDF52November 16, 2024