APIGen-MT: Pipeline Agente per la Generazione di Dati Multi-Turn tramite Simulazione di Interazione Agente-Umano

Abstract

L'addestramento di agenti AI efficaci per interazioni multi-turn richiede dati di alta qualità che catturino dinamiche realistiche tra umani e agenti, tuttavia tali dati sono scarsi e costosi da raccogliere manualmente. Introduciamo APIGen-MT, un framework a due fasi che genera dati multi-turn verificabili e diversificati per agenti. Nella prima fase, la nostra pipeline agentica produce progetti dettagliati di attività con azioni di riferimento, sfruttando un comitato di revisori LLM e cicli di feedback iterativi. Questi progetti vengono poi trasformati in traiettorie di interazione complete attraverso una simulazione di interazione umano-agente. Addestriamo una famiglia di modelli -- la serie xLAM-2-fc-r con dimensioni che vanno da 1B a 70B parametri. I nostri modelli superano modelli all'avanguardia come GPT-4o e Claude 3.5 sui benchmark tau-bench e BFCL, con i modelli più piccoli che superano le loro controparti più grandi, specialmente in contesti multi-turn, mantenendo una superiore coerenza attraverso più prove. Esperimenti completi dimostrano che il nostro approccio verificato da progetto a dettagli produce dati di addestramento di alta qualità, consentendo lo sviluppo di agenti più affidabili, efficienti e capaci. Rendiamo open-source sia i dati sintetici raccolti che i modelli xLAM-2-fc-r addestrati per avanzare la ricerca sugli agenti AI. I modelli sono disponibili su HuggingFace all'indirizzo https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 e il sito web del progetto è https://apigen-mt.github.io.

English

Training effective AI agents for multi-turn interactions requires high-quality data that captures realistic human-agent dynamics, yet such data is scarce and expensive to collect manually. We introduce APIGen-MT, a two-phase framework that generates verifiable and diverse multi-turn agent data. In the first phase, our agentic pipeline produces detailed task blueprints with ground-truth actions, leveraging a committee of LLM reviewers and iterative feedback loops. These blueprints are then transformed into complete interaction trajectories through simulated human-agent interplay. We train a family of models -- the xLAM-2-fc-r series with sizes ranging from 1B to 70B parameters. Our models outperform frontier models such as GPT-4o and Claude 3.5 on tau-bench and BFCL benchmarks, with the smaller models surpassing their larger counterparts, particularly in multi-turn settings, while maintaining superior consistency across multiple trials. Comprehensive experiments demonstrate that our verified blueprint-to-details approach yields high-quality training data, enabling the development of more reliable, efficient, and capable agents. We open-source both the synthetic data collected and the trained xLAM-2-fc-r models to advance research in AI agents. Models are available on HuggingFace at https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 and project website is https://apigen-mt.github.io

APIGen-MT: Pipeline Agente per la Generazione di Dati Multi-Turn tramite Simulazione di Interazione Agente-Umano

APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

Abstract

Summary

Support

Support