Het Blootleggen van de Barrières van Taalagenten bij Planning
Revealing the Barriers of Language Agents in Planning
October 16, 2024
Auteurs: Jian Xie, Kexun Zhang, Jiangjie Chen, Siyu Yuan, Kai Zhang, Yikai Zhang, Lei Li, Yanghua Xiao
cs.AI
Samenvatting
Autonoom plannen is een voortdurende zoektocht geweest sinds de oprichting van kunstmatige intelligentie. Op basis van samengestelde probleemoplossers konden vroege planningsagenten nauwkeurige oplossingen leveren voor specifieke taken, maar misten generalisatie. De opkomst van grote taalmodellen (LLM's) en hun krachtige redeneervermogen heeft de interesse in autonoom plannen nieuw leven ingeblazen door automatisch redelijke oplossingen te genereren voor gegeven taken. Echter, eerdere onderzoeken en onze experimenten tonen aan dat huidige taalagenten nog steeds niet beschikken over planningsvaardigheden op menselijk niveau. Zelfs het state-of-the-art redeneringsmodel, OpenAI o1, behaalt slechts 15,6% op een van de complexe planningsbenchmarks in de echte wereld. Dit benadrukt een kritieke vraag: Wat belemmert taalagenten om menselijk niveau van plannen te bereiken? Hoewel bestaande studies zwakke prestaties in agentplanning hebben benadrukt, blijven de dieperliggende problemen en de mechanismen en beperkingen van de voorgestelde strategieën om ze aan te pakken onvoldoende begrepen. In dit werk passen we de functietoewijzingsstudie toe en identificeren twee belangrijke factoren die agentplanning belemmeren: de beperkte rol van beperkingen en de afnemende invloed van vragen. We vinden ook dat hoewel huidige strategieën helpen om deze uitdagingen te verminderen, ze deze niet volledig oplossen, wat aangeeft dat agenten nog een lange weg te gaan hebben voordat ze menselijk niveau van intelligentie bereiken.
English
Autonomous planning has been an ongoing pursuit since the inception of
artificial intelligence. Based on curated problem solvers, early planning
agents could deliver precise solutions for specific tasks but lacked
generalization. The emergence of large language models (LLMs) and their
powerful reasoning capabilities has reignited interest in autonomous planning
by automatically generating reasonable solutions for given tasks. However,
prior research and our experiments show that current language agents still lack
human-level planning abilities. Even the state-of-the-art reasoning model,
OpenAI o1, achieves only 15.6% on one of the complex real-world planning
benchmarks. This highlights a critical question: What hinders language agents
from achieving human-level planning? Although existing studies have highlighted
weak performance in agent planning, the deeper underlying issues and the
mechanisms and limitations of the strategies proposed to address them remain
insufficiently understood. In this work, we apply the feature attribution study
and identify two key factors that hinder agent planning: the limited role of
constraints and the diminishing influence of questions. We also find that
although current strategies help mitigate these challenges, they do not fully
resolve them, indicating that agents still have a long way to go before
reaching human-level intelligence.Summary
AI-Generated Summary