언어 에이전트의 계획에서의 장벽 공개

Revealing the Barriers of Language Agents in Planning

October 16, 2024
저자: Jian Xie, Kexun Zhang, Jiangjie Chen, Siyu Yuan, Kai Zhang, Yikai Zhang, Lei Li, Yanghua Xiao
cs.AI

초록

자율 계획은 인공지능이 처음으로 등장한 이후 계속되어 온 노력이다. 정리된 문제 해결자에 기반을 둔 초기 계획 에이전트들은 특정 작업에 대한 정확한 해결책을 제공할 수 있었지만 일반화가 부족했다. 대형 언어 모델(Large Language Models, LLMs)의 등장과 강력한 추론 능력으로 자동으로 주어진 작업에 대한 합리적인 해결책을 생성함으로써 자율 계획에 대한 관심이 다시 불붙었다. 그러나 이전 연구와 우리의 실험은 현재의 언어 에이전트들이 아직 인간 수준의 계획 능력을 갖고 있지 않다는 것을 보여준다. 최첨단 추론 모델인 OpenAI o1조차도 복잡한 실제 세계 계획 벤치마크 중 하나에서 15.6%에 불과하다. 이것은 중요한 질문을 던진다: 언어 에이전트들이 인간 수준의 계획을 달성하는 데 어떤 것이 방해되는가? 기존 연구들은 에이전트 계획의 성능 저하를 강조했지만, 이에 대한 깊이 있는 근본적인 문제와 이를 해결하기 위해 제안된 전략들의 메커니즘과 한계는 여전히 충분히 이해되지 않고 있다. 본 연구에서는 특성 기여 연구를 적용하여 에이전트 계획을 방해하는 두 가지 주요 요인을 식별하였다: 제약 조건의 한정된 역할과 질문의 영향력의 감소. 또한 현재 전략이 이러한 도전에 대처하는 데 도움이 되지만, 이를 완전히 해결하지는 못한다는 것을 발견했으며, 이는 에이전트들이 아직 인간 수준의 지능에 도달하기까지는 아직 멀은 길이 있다는 것을 나타낸다.
English
Autonomous planning has been an ongoing pursuit since the inception of artificial intelligence. Based on curated problem solvers, early planning agents could deliver precise solutions for specific tasks but lacked generalization. The emergence of large language models (LLMs) and their powerful reasoning capabilities has reignited interest in autonomous planning by automatically generating reasonable solutions for given tasks. However, prior research and our experiments show that current language agents still lack human-level planning abilities. Even the state-of-the-art reasoning model, OpenAI o1, achieves only 15.6% on one of the complex real-world planning benchmarks. This highlights a critical question: What hinders language agents from achieving human-level planning? Although existing studies have highlighted weak performance in agent planning, the deeper underlying issues and the mechanisms and limitations of the strategies proposed to address them remain insufficiently understood. In this work, we apply the feature attribution study and identify two key factors that hinder agent planning: the limited role of constraints and the diminishing influence of questions. We also find that although current strategies help mitigate these challenges, they do not fully resolve them, indicating that agents still have a long way to go before reaching human-level intelligence.

Summary

AI-Generated Summary

PDF232November 16, 2024