ChatPaper.aiChatPaper

ATLaS: Настройка агента через изучение ключевых шагов

ATLaS: Agent Tuning via Learning Critical Steps

March 4, 2025
Авторы: Zhixun Chen, Ming Li, Yuxuan Huang, Yali Du, Meng Fang, Tianyi Zhou
cs.AI

Аннотация

Крупные языковые модели (LLM) в роли агентов продемонстрировали выдающиеся способности к обобщению в задачах, охватывающих несколько доменов. Существующие подходы к настройке агентов обычно используют контролируемое дообучение на полных траекториях экспертов. Однако клонирование поведения на основе полных траекторий может привести к внесению экспертных предубеждений и снижению обобщающей способности для состояний, не охваченных экспертными данными. Кроме того, ключевые этапы, такие как планирование, сложные рассуждения для промежуточных подзадач и стратегическое принятие решений, имеют решающее значение для успеха агентов, поэтому обучение этим этапам является ключом к улучшению LLM-агентов. Для более эффективной и экономичной настройки агентов мы предлагаем метод ATLaS, который идентифицирует ключевые этапы в траекториях экспертов и дообучает LLM исключительно на этих этапах с сокращением затрат. Сосредоточив внимание обучения на нескольких ключевых этапах, наш метод снижает риск переобучения на полных траекториях и способствует обобщению в различных средах и задачах. В обширных экспериментах LLM, дообученная только на 30% ключевых этапов, выбранных ATLaS, превосходит LLM, дообученную на всех этапах, а также недавние открытые LLM-агенты. ATLaS сохраняет и улучшает базовые навыки LLM в качестве универсальных агентов, взаимодействующих с разнообразными средами.
English
Large Language Model (LLM) agents have demonstrated remarkable generalization capabilities across multi-domain tasks. Existing agent tuning approaches typically employ supervised finetuning on entire expert trajectories. However, behavior-cloning of full trajectories can introduce expert bias and weaken generalization to states not covered by the expert data. Additionally, critical steps, such as planning, complex reasoning for intermediate subtasks, and strategic decision-making, are essential to success in agent tasks, so learning these steps is the key to improving LLM agents. For more effective and efficient agent tuning, we propose ATLaS that identifies the critical steps in expert trajectories and finetunes LLMs solely on these steps with reduced costs. By steering the training's focus to a few critical steps, our method mitigates the risk of overfitting entire trajectories and promotes generalization across different environments and tasks. In extensive experiments, an LLM finetuned on only 30% critical steps selected by ATLaS outperforms the LLM finetuned on all steps and recent open-source LLM agents. ATLaS maintains and improves base LLM skills as generalist agents interacting with diverse environments.

Summary

AI-Generated Summary

PDF72March 5, 2025