GATE OpenING: un benchmark completo per valutare la generazione aperta e interspersa di immagini e testo.
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation
November 27, 2024
Autori: Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno compiuto progressi significativi nei compiti di comprensione e generazione visiva. Tuttavia, generare contenuti immagine-testo intercalati rimane una sfida che richiede capacità integrate di comprensione e generazione multimodale. Mentre i progressi nei modelli unificati offrono nuove soluzioni, i benchmark esistenti sono insufficienti per valutare questi metodi a causa delle limitazioni di dimensioni e diversità dei dati. Per colmare questa lacuna, presentiamo GATE OpenING (OpenING), un benchmark completo che comprende 5.400 istanze annotate da umani di alta qualità su 56 compiti del mondo reale. OpenING copre scenari quotidiani diversificati come guide turistiche, design e brainstorming, offrendo una piattaforma robusta per metodi di generazione intercalata impegnativi. Inoltre, presentiamo IntJudge, un modello giudice per valutare i metodi di generazione multimodale aperti. Addestrato con un nuovo flusso di dati, il nostro IntJudge raggiunge un tasso di accordo dell'82,42% con i giudizi umani, superando gli valutatori basati su GPT del 11,34%. Esperimenti approfonditi su OpenING rivelano che i metodi attuali di generazione intercalata hanno ancora ampio margine di miglioramento. Risultati chiave sulla generazione immagine-testo intercalata sono inoltre presentati per guidare lo sviluppo dei modelli di prossima generazione. OpenING è open-source su https://opening.github.io.
English
Multimodal Large Language Models (MLLMs) have made significant strides in
visual understanding and generation tasks. However, generating interleaved
image-text content remains a challenge, which requires integrated multimodal
understanding and generation abilities. While the progress in unified models
offers new solutions, existing benchmarks are insufficient for evaluating these
methods due to data size and diversity limitations. To bridge this gap, we
introduce GATE OpenING (OpenING), a comprehensive benchmark comprising 5,400
high-quality human-annotated instances across 56 real-world tasks. OpenING
covers diverse daily scenarios such as travel guide, design, and brainstorming,
offering a robust platform for challenging interleaved generation methods. In
addition, we present IntJudge, a judge model for evaluating open-ended
multimodal generation methods. Trained with a novel data pipeline, our IntJudge
achieves an agreement rate of 82. 42% with human judgments, outperforming
GPT-based evaluators by 11.34%. Extensive experiments on OpenING reveal that
current interleaved generation methods still have substantial room for
improvement. Key findings on interleaved image-text generation are further
presented to guide the development of next-generation models. The OpenING is
open-sourced at https://opening.github.io.Summary
AI-Generated Summary