자기 학습과 반사적 트리 탐색을 활용하여 자율적 AI 에이전트 향상하기
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
October 2, 2024
저자: Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu
cs.AI
초록
자율 에이전트는 복잡한 다단계 의사 결정 작업을 자동화하는 데 상당한 잠재력을 보여 주었습니다. 그러나 최첨단 비전-언어 모델(VLMs)인 GPT-4o와 같은 경우에도 인간 수준의 성능에는 아직 미치지 못하는데, 특히 복잡한 웹 환경과 장기 계획 작업에서는 특히 그렇습니다. 이러한 한계를 극복하기 위해 우리는 Reflective Monte Carlo Tree Search (R-MCTS)를 소개합니다. 이는 AI 에이전트의 능력을 향상시키기 위해 설계된 새로운 테스트 시간 알고리즘으로, 예를 들어 GPT-4o를 기반으로 하는 경우, 즉석에서 의사 결정 공간을 탐색하는 능력을 향상시킵니다. R-MCTS는 1) 대조적 반사를 통합하여 과거 상호 작용에서 배우고 검색 효율성을 동적으로 향상시킬 수 있도록 하고, 2) 신뢰할 수 있는 상태 평가를 제공하기 위해 다중 에이전트 토론을 사용함으로써 전통적인 MCTS를 확장합니다. 또한, 우리는 R-MCTS가 생성한 트리 탐색을 사용하여 인간이 제공한 레이블 없이 GPT-4o를 자기 학습을 통해 세밀하게 조정하여 에이전트의 성능을 향상시킵니다. 어려운 VisualWebArena 벤치마크에서, 우리의 GPT-4o 기반 R-MCTS 에이전트는 이전 최첨단 기술에 비해 다양한 작업에서 6%에서 30% 상대적인 개선을 달성합니다. 게다가, 테스트 시간 검색에서 얻은 지식을 세밀하게 조정을 통해 다시 GPT-4o로 전달할 수 있는 것을 보여줍니다. 세밀하게 조정된 GPT-4o는 테스트 시간에 연산 사용량을 4배로 줄이면서 R-MCTS의 성능의 97%를 일치시킵니다. 더 나아가, 질적 결과는 세밀하게 조정된 GPT-4o 모델이 환경을 탐색하고 상태를 평가하며, 현재 상태가 성공으로 이끌지 못할 때 유효한 상태로 되돌아가는 능력을 보여줍니다. 또한, 우리의 연구는 R-MCTS와 함께 데이터 수집을 통한 교육 및 테스트 시간에서의 연산 확장 특성을 보여줍니다. 이러한 결과는 테스트 시간 검색 및 자기 학습을 통해 VLMs의 추론 및 계획 능력을 향상시키기 위한 유망한 연구 방향을 제안합니다.
English
Autonomous agents have demonstrated significant potential in automating
complex multistep decision-making tasks. However, even state-of-the-art
vision-language models (VLMs), such as GPT-4o, still fall short of human-level
performance, particularly in intricate web environments and long-horizon
planning tasks. To address these limitations, we introduce Reflective Monte
Carlo Tree Search (R-MCTS), a novel test-time algorithm designed to enhance the
ability of AI agents, e.g., powered by GPT-4o, to explore decision space on the
fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive
reflection, allowing agents to learn from past interactions and dynamically
improve their search efficiency; and 2) using multi-agent debate to provide
reliable state evaluation. Moreover, we improve the agent's performance by
fine-tuning GPT-4o through self-learning, using R-MCTS generated tree
traversals without any human-provided labels. On the challenging VisualWebArena
benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative
improvement across various tasks compared to the previous state-of-the-art.
Additionally, we show that the knowledge gained from test-time search can be
effectively transferred back to GPT-4o via fine-tuning. The fine-tuned GPT-4o
matches 97% of R-MCTS's performance while reducing compute usage by a factor of
four at test time. Furthermore, qualitative results reveal that the fine-tuned
GPT-4o model demonstrates the ability to explore the environment, evaluate a
state, and backtrack to viable ones when it detects that the current state
cannot lead to success. Moreover, our work demonstrates the compute scaling
properties in both training - data collection with R-MCTS - and testing time.
These results suggest a promising research direction to enhance VLMs' reasoning
and planning capabilities for agentic applications via test-time search and
self-learning.Summary
AI-Generated Summary