IntellAgent: Ein Multi-Agenten-Framework zur Evaluierung von Konversations-KI-Systemen

Zusammenfassung

Große Sprachmodelle (LLMs) transformieren künstliche Intelligenz und entwickeln sich zu aufgabenorientierten Systemen, die in der Lage sind, autonom zu planen und auszuführen. Eine der Hauptanwendungen von LLMs sind dialogorientierte KI-Systeme, die mehrstufige Dialoge bewältigen, domänenspezifische APIs integrieren und strengen Richtlinien unterliegen müssen. Die Bewertung dieser Agenten bleibt jedoch eine bedeutende Herausforderung, da herkömmliche Methoden die Komplexität und Variabilität realer Interaktionen nicht erfassen können. Wir stellen IntellAgent vor, ein skalierbares, Open-Source-Multi-Agenten-Framework, das entwickelt wurde, um dialogorientierte KI-Systeme umfassend zu bewerten. IntellAgent automatisiert die Erstellung vielfältiger, synthetischer Benchmarks, indem es policygesteuertes Graphenmodellieren, realistische Ereignisgenerierung und interaktive Benutzer-Agenten-Simulationen kombiniert. Dieser innovative Ansatz bietet feingliedrige Diagnosen, um die Einschränkungen statischer und manuell kuratierter Benchmarks mit grobkörnigen Metriken zu bewältigen. IntellAgent stellt einen Paradigmenwechsel in der Bewertung dialogorientierter KI dar. Durch die Simulation realistischer, multipolitischer Szenarien mit unterschiedlichen Komplexitätsgraden erfasst IntellAgent das nuancierte Zusammenspiel von Agentenfähigkeiten und Richtlinienbeschränkungen. Im Gegensatz zu traditionellen Methoden verwendet es ein graphenbasiertes Richtlinienmodell, um Beziehungen, Wahrscheinlichkeiten und Komplexitäten von Richtlinieninteraktionen darzustellen und hochdetaillierte Diagnosen zu ermöglichen. IntellAgent identifiziert auch kritische Leistungslücken und bietet handlungsorientierte Einblicke zur gezielten Optimierung. Sein modulares, Open-Source-Design unterstützt eine nahtlose Integration neuer Domänen, Richtlinien und APIs, fördert die Reproduzierbarkeit und die Zusammenarbeit in der Gemeinschaft. Unsere Ergebnisse zeigen, dass IntellAgent ein effektives Framework zur Weiterentwicklung dialogorientierter KI darstellt, indem es Herausforderungen bei der Verbindung von Forschung und Bereitstellung angeht. Das Framework ist unter https://github.com/plurai-ai/intellagent verfügbar.

English

Large Language Models (LLMs) are transforming artificial intelligence, evolving into task-oriented systems capable of autonomous planning and execution. One of the primary applications of LLMs is conversational AI systems, which must navigate multi-turn dialogues, integrate domain-specific APIs, and adhere to strict policy constraints. However, evaluating these agents remains a significant challenge, as traditional methods fail to capture the complexity and variability of real-world interactions. We introduce IntellAgent, a scalable, open-source multi-agent framework designed to evaluate conversational AI systems comprehensively. IntellAgent automates the creation of diverse, synthetic benchmarks by combining policy-driven graph modeling, realistic event generation, and interactive user-agent simulations. This innovative approach provides fine-grained diagnostics, addressing the limitations of static and manually curated benchmarks with coarse-grained metrics. IntellAgent represents a paradigm shift in evaluating conversational AI. By simulating realistic, multi-policy scenarios across varying levels of complexity, IntellAgent captures the nuanced interplay of agent capabilities and policy constraints. Unlike traditional methods, it employs a graph-based policy model to represent relationships, likelihoods, and complexities of policy interactions, enabling highly detailed diagnostics. IntellAgent also identifies critical performance gaps, offering actionable insights for targeted optimization. Its modular, open-source design supports seamless integration of new domains, policies, and APIs, fostering reproducibility and community collaboration. Our findings demonstrate that IntellAgent serves as an effective framework for advancing conversational AI by addressing challenges in bridging research and deployment. The framework is available at https://github.com/plurai-ai/intellagent

IntellAgent: Ein Multi-Agenten-Framework zur Evaluierung von Konversations-KI-Systemen

IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

Zusammenfassung

Summary

Support

Support