ChatPaper.aiChatPaper

MPO: Усиление агентов на основе больших языковых моделей с помощью метаоптимизации планов

MPO: Boosting LLM Agents with Meta Plan Optimization

March 4, 2025
Авторы: Weimin Xiong, Yifan Song, Qingxiu Dong, Bingchan Zhao, Feifan Song, Xun Wang, Sujian Li
cs.AI

Аннотация

Последние достижения в области больших языковых моделей (LLM) позволили агентам на основе LLM успешно справляться с задачами интерактивного планирования. Однако, несмотря на их успехи, существующие подходы часто страдают от галлюцинаций при планировании и требуют переобучения для каждого нового агента. Для решения этих проблем мы предлагаем фреймворк Meta Plan Optimization (MPO), который улучшает способности агентов к планированию за счет прямого включения явных указаний. В отличие от предыдущих методов, которые полагаются на сложные знания, требующие значительных человеческих усилий или не обеспечивающие гарантии качества, MPO использует высокоуровневые общие указания через метапланы для помощи в планировании агентов и позволяет непрерывно оптимизировать метапланы на основе обратной связи от выполнения задач агентом. Наши эксперименты, проведенные на двух репрезентативных задачах, демонстрируют, что MPO значительно превосходит существующие базовые подходы. Более того, наш анализ показывает, что MPO предоставляет готовое решение, которое улучшает как эффективность выполнения задач, так и способность к обобщению в ранее не встречавшихся сценариях.
English
Recent advancements in large language models (LLMs) have enabled LLM-based agents to successfully tackle interactive planning tasks. However, despite their successes, existing approaches often suffer from planning hallucinations and require retraining for each new agent. To address these challenges, we propose the Meta Plan Optimization (MPO) framework, which enhances agent planning capabilities by directly incorporating explicit guidance. Unlike previous methods that rely on complex knowledge, which either require significant human effort or lack quality assurance, MPO leverages high-level general guidance through meta plans to assist agent planning and enables continuous optimization of the meta plans based on feedback from the agent's task execution. Our experiments conducted on two representative tasks demonstrate that MPO significantly outperforms existing baselines. Moreover, our analysis indicates that MPO provides a plug-and-play solution that enhances both task completion efficiency and generalization capabilities in previous unseen scenarios.

Summary

AI-Generated Summary

PDF232March 5, 2025