GATE OpenING: un benchmark completo per valutare la generazione aperta e interspersa di immagini e testo.

GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

November 27, 2024
Autori: Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang
cs.AI

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno compiuto progressi significativi nei compiti di comprensione e generazione visiva. Tuttavia, generare contenuti immagine-testo intercalati rimane una sfida che richiede capacità integrate di comprensione e generazione multimodale. Mentre i progressi nei modelli unificati offrono nuove soluzioni, i benchmark esistenti sono insufficienti per valutare questi metodi a causa delle limitazioni di dimensioni e diversità dei dati. Per colmare questa lacuna, presentiamo GATE OpenING (OpenING), un benchmark completo che comprende 5.400 istanze annotate da umani di alta qualità su 56 compiti del mondo reale. OpenING copre scenari quotidiani diversificati come guide turistiche, design e brainstorming, offrendo una piattaforma robusta per metodi di generazione intercalata impegnativi. Inoltre, presentiamo IntJudge, un modello giudice per valutare i metodi di generazione multimodale aperti. Addestrato con un nuovo flusso di dati, il nostro IntJudge raggiunge un tasso di accordo dell'82,42% con i giudizi umani, superando gli valutatori basati su GPT del 11,34%. Esperimenti approfonditi su OpenING rivelano che i metodi attuali di generazione intercalata hanno ancora ampio margine di miglioramento. Risultati chiave sulla generazione immagine-testo intercalata sono inoltre presentati per guidare lo sviluppo dei modelli di prossima generazione. OpenING è open-source su https://opening.github.io.
English
Multimodal Large Language Models (MLLMs) have made significant strides in visual understanding and generation tasks. However, generating interleaved image-text content remains a challenge, which requires integrated multimodal understanding and generation abilities. While the progress in unified models offers new solutions, existing benchmarks are insufficient for evaluating these methods due to data size and diversity limitations. To bridge this gap, we introduce GATE OpenING (OpenING), a comprehensive benchmark comprising 5,400 high-quality human-annotated instances across 56 real-world tasks. OpenING covers diverse daily scenarios such as travel guide, design, and brainstorming, offering a robust platform for challenging interleaved generation methods. In addition, we present IntJudge, a judge model for evaluating open-ended multimodal generation methods. Trained with a novel data pipeline, our IntJudge achieves an agreement rate of 82. 42% with human judgments, outperforming GPT-based evaluators by 11.34%. Extensive experiments on OpenING reveal that current interleaved generation methods still have substantial room for improvement. Key findings on interleaved image-text generation are further presented to guide the development of next-generation models. The OpenING is open-sourced at https://opening.github.io.

Summary

AI-Generated Summary

PDF182December 3, 2024