ChatPaper.aiChatPaper

Un Framework Agente Unificato per la Valutazione della Generazione Condizionata di Immagini

A Unified Agentic Framework for Evaluating Conditional Image Generation

April 9, 2025
Autori: Jifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
cs.AI

Abstract

La generazione condizionata di immagini ha attirato notevole attenzione per la sua capacità di personalizzare i contenuti. Tuttavia, il campo affronta sfide nello sviluppo di metriche di valutazione affidabili, spiegabili e indipendenti dal compito. Questo articolo introduce CIGEval, un framework agente unificato per la valutazione completa delle attività di generazione condizionata di immagini. CIGEval utilizza modelli multimodali di grandi dimensioni (LMM) come nucleo, integrando una toolbox multifunzionale e stabilendo un framework di valutazione granulare. Inoltre, sintetizziamo traiettorie di valutazione per il fine-tuning, consentendo a LMM più piccoli di selezionare autonomamente gli strumenti appropriati e condurre analisi sfumate basate sugli output degli strumenti. Esperimenti condotti su sette importanti attività di generazione condizionata di immagini dimostrano che CIGEval (versione GPT-4o) raggiunge un'elevata correlazione di 0,4625 con le valutazioni umane, avvicinandosi alla correlazione inter-annotatore di 0,47. Inoltre, quando implementato con LMM open-source da 7B utilizzando solo 2,3K traiettorie di addestramento, CIGEval supera il precedente metodo all'avanguardia basato su GPT-4o. Studi di caso sulla generazione di immagini con GPT-4o evidenziano la capacità di CIGEval di identificare problemi sottili legati alla coerenza del soggetto e all'aderenza alle indicazioni di controllo, indicando il suo grande potenziale per automatizzare la valutazione delle attività di generazione di immagini con un'affidabilità pari a quella umana.
English
Conditional image generation has gained significant attention for its ability to personalize content. However, the field faces challenges in developing task-agnostic, reliable, and explainable evaluation metrics. This paper introduces CIGEval, a unified agentic framework for comprehensive evaluation of conditional image generation tasks. CIGEval utilizes large multimodal models (LMMs) as its core, integrating a multi-functional toolbox and establishing a fine-grained evaluation framework. Additionally, we synthesize evaluation trajectories for fine-tuning, empowering smaller LMMs to autonomously select appropriate tools and conduct nuanced analyses based on tool outputs. Experiments across seven prominent conditional image generation tasks demonstrate that CIGEval (GPT-4o version) achieves a high correlation of 0.4625 with human assessments, closely matching the inter-annotator correlation of 0.47. Moreover, when implemented with 7B open-source LMMs using only 2.3K training trajectories, CIGEval surpasses the previous GPT-4o-based state-of-the-art method. Case studies on GPT-4o image generation highlight CIGEval's capability in identifying subtle issues related to subject consistency and adherence to control guidance, indicating its great potential for automating evaluation of image generation tasks with human-level reliability.

Summary

AI-Generated Summary

PDF282April 10, 2025