QLASS: Q-지도된 단계별 탐색을 통한 언어 에이전트 추론 강화
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search
February 4, 2025
저자: Zongyu Lin, Yao Tang, Xingcheng Yao, Da Yin, Ziniu Hu, Yizhou Sun, Kai-Wei Chang
cs.AI
초록
언어 에이전트는 복잡한 상호 작용 작업에 대한 유망한 솔루션이 되어왔습니다. 언어 에이전트의 성공의 핵심 요소 중 하나는 에이전트 워크플로의 경로에 대한 보상 모델입니다. 이 보상 모델은 훈련 또는 추론 중에 가치 있는 지침을 제공합니다. 그러나 중간 상호 작용의 주석이 부족하기 때문에 대부분의 기존 작업은 전체 경로를 통해 정책을 최적화하기 위해 결과 보상 모델을 사용합니다. 이는 부적합한 정책을 유발하고 전반적인 성능을 저해할 수 있습니다. 이를 해결하기 위해 우리는 QLASS(Q-가이드 언어 에이전트 단계별 탐색)를 제안합니다. 이는 오픈 언어 에이전트를 위해 Q-값을 단계적으로 추정하여 주석을 자동으로 생성합니다. 추론 과정에서 추론 트리를 도입하고 프로세스 보상 모델링을 수행함으로써 QLASS는 각 단계에 대한 효과적인 중간 지침을 제공합니다. 단계별 지침을 통해 우리는 Q-가이드 생성 전략을 제안하여 언어 에이전트가 장기적 가치에 더 잘 적응할 수 있도록 하였으며, 이는 복잡한 상호 작용 에이전트 작업에서 모델 추론 중 성능을 크게 향상시켰습니다. 특히, 주석이 거의 절반인 상태에서도 QLASS는 강력한 성능을 유지하며, 제한된 지도를 처리하는 효율성을 입증합니다. 또한 우리는 QLASS가 질적 분석을 통해 더 효과적인 의사 결정을 이끌어낼 수 있다는 것을 경험적으로 입증합니다. 우리는 코드와 데이터를 공개할 예정입니다.
English
Language agents have become a promising solution to complex interactive
tasks. One of the key ingredients to the success of language agents is the
reward model on the trajectory of the agentic workflow, which provides valuable
guidance during training or inference. However, due to the lack of annotations
of intermediate interactions, most existing works use an outcome reward model
to optimize policies across entire trajectories. This may lead to sub-optimal
policies and hinder the overall performance. To address this, we propose QLASS
(Q-guided Language Agent Stepwise Search), to automatically generate
annotations by estimating Q-values in a stepwise manner for open language
agents. By introducing a reasoning tree and performing process reward modeling,
QLASS provides effective intermediate guidance for each step. With the stepwise
guidance, we propose a Q-guided generation strategy to enable language agents
to better adapt to long-term value, resulting in significant performance
improvement during model inference on complex interactive agent tasks. Notably,
even with almost half the annotated data, QLASS retains strong performance,
demonstrating its efficiency in handling limited supervision. We also
empirically demonstrate that QLASS can lead to more effective decision making
through qualitative analysis. We will release our code and data.Summary
AI-Generated Summary