ChatPaper.aiChatPaper

CoSTAast: Kostenempfindlicher Toolpath-Agent für mehrstufige Bildbearbeitung

CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

March 13, 2025
Autoren: Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou
cs.AI

Zusammenfassung

Text-to-Image-Modelle wie Stable Diffusion und DALLE-3 haben nach wie vor Schwierigkeiten mit der mehrstufigen Bildbearbeitung. Wir zerlegen eine solche Aufgabe in einen agentenbasierten Workflow (Pfad) der Werkzeugnutzung, der eine Abfolge von Teilaufgaben durch KI-Werkzeuge mit unterschiedlichen Kosten bewältigt. Konventionelle Suchalgorithmen erfordern eine aufwendige Exploration, um Werkzeugpfade zu finden. Während große Sprachmodelle (LLMs) über Vorwissen zur Planung von Teilaufgaben verfügen, fehlt ihnen oft eine genaue Einschätzung der Fähigkeiten und Kosten von Werkzeugen, um zu bestimmen, welche in jeder Teilaufgabe anzuwenden sind. Können wir die Stärken von LLMs und Graphensuche kombinieren, um kosteneffiziente Werkzeugpfade zu finden? Wir schlagen einen dreistufigen Ansatz „CoSTA*“ vor, der LLMs nutzt, um einen Teilaufgabenbaum zu erstellen, der dabei hilft, einen Graphen von KI-Werkzeugen für die gegebene Aufgabe zu beschneiden, und dann eine A*-Suche auf dem kleinen Teilgraphen durchführt, um einen Werkzeugpfad zu finden. Um die Gesamtkosten und Qualität besser auszubalancieren, kombiniert CoSTA* beide Metriken jedes Werkzeugs für jede Teilaufgabe, um die A*-Suche zu steuern. Die Ausgabe jeder Teilaufgabe wird dann durch ein Vision-Language-Modell (VLM) bewertet, wobei ein Fehler eine Aktualisierung der Kosten und Qualität des Werkzeugs für die Teilaufgabe auslöst. Somit kann die A*-Suche schnell von Fehlern zurückkehren, um andere Pfade zu erkunden. Darüber hinaus kann CoSTA* automatisch zwischen Modalitäten über Teilaufgaben hinweg wechseln, um eine bessere Kosten-Qualitäts-Abwägung zu erreichen. Wir entwickeln einen neuartigen Benchmark für anspruchsvolle mehrstufige Bildbearbeitung, auf dem CoSTA* sowohl in Bezug auf Kosten als auch Qualität die besten Bildbearbeitungsmodelle oder -agenten übertrifft und vielseitige Abwägungen basierend auf Benutzerpräferenzen ermöglicht.
English
Text-to-image models like stable diffusion and DALLE-3 still struggle with multi-turn image editing. We decompose such a task as an agentic workflow (path) of tool use that addresses a sequence of subtasks by AI tools of varying costs. Conventional search algorithms require expensive exploration to find tool paths. While large language models (LLMs) possess prior knowledge of subtask planning, they may lack accurate estimations of capabilities and costs of tools to determine which to apply in each subtask. Can we combine the strengths of both LLMs and graph search to find cost-efficient tool paths? We propose a three-stage approach "CoSTA*" that leverages LLMs to create a subtask tree, which helps prune a graph of AI tools for the given task, and then conducts A* search on the small subgraph to find a tool path. To better balance the total cost and quality, CoSTA* combines both metrics of each tool on every subtask to guide the A* search. Each subtask's output is then evaluated by a vision-language model (VLM), where a failure will trigger an update of the tool's cost and quality on the subtask. Hence, the A* search can recover from failures quickly to explore other paths. Moreover, CoSTA* can automatically switch between modalities across subtasks for a better cost-quality trade-off. We build a novel benchmark of challenging multi-turn image editing, on which CoSTA* outperforms state-of-the-art image-editing models or agents in terms of both cost and quality, and performs versatile trade-offs upon user preference.

Summary

AI-Generated Summary

PDF7710March 14, 2025