ChatPaper.aiChatPaper

OctoTools: 확장 가능한 도구를 갖춘 복잡한 추론을 위한 에이전트 프레임워크

OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

February 16, 2025
저자: Pan Lu, Bowen Chen, Sheng Liu, Rahul Thapa, Joseph Boen, James Zou
cs.AI

초록

복잡한 추론 과제를 해결하기 위해서는 시각적 이해, 도메인 지식 검색, 수치 계산, 그리고 다단계 추론이 필요할 수 있습니다. 기존의 방법들은 대규모 언어 모델(LLMs)을 외부 도구와 결합하여 사용하지만, 특정 도메인에 한정되거나 제한된 도구 유형만을 지원하며, 추가적인 학습 데이터를 요구하는 한계가 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 OctoTools를 소개합니다. OctoTools는 학습이 필요 없으며 사용자 친화적이고 쉽게 확장 가능한 오픈소스 에이전트 프레임워크로, 다양한 도메인에서 복잡한 추론을 수행하도록 설계되었습니다. OctoTools는 도구의 기능을 캡슐화하는 표준화된 도구 카드, 상위 및 하위 수준의 계획을 담당하는 플래너, 그리고 도구 사용을 실행하는 실행기를 도입합니다. 우리는 OctoTools의 일반성을 검증하기 위해 MathVista, MMLU-Pro, MedQA, GAIA-Text를 포함한 16가지 다양한 과제에서 실험을 진행했으며, GPT-4o 대비 평균 9.3%의 정확도 향상을 달성했습니다. 또한, 동일한 도구 세트를 제공했을 때 OctoTools는 AutoGen, GPT-Functions, LangChain보다 최대 10.6% 더 나은 성능을 보였습니다. 포괄적인 분석과 제거 실험을 통해 OctoTools는 과제 계획, 효과적인 도구 사용, 다단계 문제 해결에서의 장점을 입증했습니다.
English
Solving complex reasoning tasks may involve visual understanding, domain knowledge retrieval, numerical calculation, and multi-step reasoning. Existing methods augment large language models (LLMs) with external tools but are restricted to specialized domains, limited tool types, or require additional training data. In this paper, we introduce OctoTools, a training-free, user-friendly, and easily extensible open-source agentic framework designed to tackle complex reasoning across diverse domains. OctoTools introduces standardized tool cards to encapsulate tool functionality, a planner for both high-level and low-level planning, and an executor to carry out tool usage. We validate OctoTools' generality across 16 diverse tasks (including MathVista, MMLU-Pro, MedQA, and GAIA-Text), achieving substantial average accuracy gains of 9.3% over GPT-4o. Furthermore, OctoTools outperforms AutoGen, GPT-Functions and LangChain by up to 10.6% when given the same set of tools. Through comprehensive analysis and ablations, OctoTools demonstrates advantages in task planning, effective tool usage, and multi-step problem solving.

Summary

AI-Generated Summary

PDF123February 19, 2025