ATLaS: Настройка агента через изучение ключевых шагов
ATLaS: Agent Tuning via Learning Critical Steps
March 4, 2025
Авторы: Zhixun Chen, Ming Li, Yuxuan Huang, Yali Du, Meng Fang, Tianyi Zhou
cs.AI
Аннотация
Крупные языковые модели (LLM) в роли агентов продемонстрировали выдающиеся способности к обобщению в задачах, охватывающих несколько доменов. Существующие подходы к настройке агентов обычно используют контролируемое дообучение на полных траекториях экспертов. Однако клонирование поведения на основе полных траекторий может привести к внесению экспертных предубеждений и снижению обобщающей способности для состояний, не охваченных экспертными данными. Кроме того, ключевые этапы, такие как планирование, сложные рассуждения для промежуточных подзадач и стратегическое принятие решений, имеют решающее значение для успеха агентов, поэтому обучение этим этапам является ключом к улучшению LLM-агентов. Для более эффективной и экономичной настройки агентов мы предлагаем метод ATLaS, который идентифицирует ключевые этапы в траекториях экспертов и дообучает LLM исключительно на этих этапах с сокращением затрат. Сосредоточив внимание обучения на нескольких ключевых этапах, наш метод снижает риск переобучения на полных траекториях и способствует обобщению в различных средах и задачах. В обширных экспериментах LLM, дообученная только на 30% ключевых этапов, выбранных ATLaS, превосходит LLM, дообученную на всех этапах, а также недавние открытые LLM-агенты. ATLaS сохраняет и улучшает базовые навыки LLM в качестве универсальных агентов, взаимодействующих с разнообразными средами.
English
Large Language Model (LLM) agents have demonstrated remarkable generalization
capabilities across multi-domain tasks. Existing agent tuning approaches
typically employ supervised finetuning on entire expert trajectories. However,
behavior-cloning of full trajectories can introduce expert bias and weaken
generalization to states not covered by the expert data. Additionally, critical
steps, such as planning, complex reasoning for intermediate subtasks, and
strategic decision-making, are essential to success in agent tasks, so learning
these steps is the key to improving LLM agents. For more effective and
efficient agent tuning, we propose ATLaS that identifies the critical steps in
expert trajectories and finetunes LLMs solely on these steps with reduced
costs. By steering the training's focus to a few critical steps, our method
mitigates the risk of overfitting entire trajectories and promotes
generalization across different environments and tasks. In extensive
experiments, an LLM finetuned on only 30% critical steps selected by ATLaS
outperforms the LLM finetuned on all steps and recent open-source LLM agents.
ATLaS maintains and improves base LLM skills as generalist agents interacting
with diverse environments.Summary
AI-Generated Summary