GATE OpenING: 개방형 상호작용 이미지-텍스트 생성을 평가하기 위한 포괄적인 벤치마크
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation
November 27, 2024
저자: Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang
cs.AI
초록
다중 모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 시각 이해 및 생성 작업에서 상당한 발전을 이루었습니다. 그러나 이미지-텍스트 콘텐츠를 교차로 생성하는 것은 여전히 도전적이며, 통합된 다중 모달 이해 및 생성 능력이 필요합니다. 통합 모델의 발전은 새로운 해결책을 제공하지만, 데이터 크기 및 다양성 제한으로 인해 기존 벤치마크는 이러한 방법을 평가하기에 충분하지 않습니다. 이 간극을 메우기 위해 우리는 GATE OpenING (OpenING)을 소개합니다. 이는 56가지 실제 과제를 포함한 5,400개의 고품질 인간 주석이 달린 인스턴스로 구성된 포괄적인 벤치마크입니다. OpenING은 여행 가이드, 디자인, 브레인스토밍과 같은 다양한 일상 시나리오를 다루며, 도전적인 교차 생성 방법을 위한 견고한 플랫폼을 제공합니다. 또한, 우리는 오픈 엔드 다중 모달 생성 방법을 평가하기 위한 판단 모델 IntJudge를 제시합니다. 새로운 데이터 파이프라인으로 훈련된 IntJudge는 인간 판단과 82.42%의 일치율을 달성하여 GPT 기반 평가자들을 11.34% 능가합니다. OpenING에서의 광범위한 실험 결과, 현재의 교차 생성 방법에는 여전히 큰 개선 여지가 있다는 것을 보여줍니다. 교차 이미지-텍스트 생성에 대한 주요 발견은 차세대 모델 개발을 안내하는 데 추가로 제시됩니다. OpenING은 https://opening.github.io에서 오픈 소스로 제공됩니다.
English
Multimodal Large Language Models (MLLMs) have made significant strides in
visual understanding and generation tasks. However, generating interleaved
image-text content remains a challenge, which requires integrated multimodal
understanding and generation abilities. While the progress in unified models
offers new solutions, existing benchmarks are insufficient for evaluating these
methods due to data size and diversity limitations. To bridge this gap, we
introduce GATE OpenING (OpenING), a comprehensive benchmark comprising 5,400
high-quality human-annotated instances across 56 real-world tasks. OpenING
covers diverse daily scenarios such as travel guide, design, and brainstorming,
offering a robust platform for challenging interleaved generation methods. In
addition, we present IntJudge, a judge model for evaluating open-ended
multimodal generation methods. Trained with a novel data pipeline, our IntJudge
achieves an agreement rate of 82. 42% with human judgments, outperforming
GPT-based evaluators by 11.34%. Extensive experiments on OpenING reveal that
current interleaved generation methods still have substantial room for
improvement. Key findings on interleaved image-text generation are further
presented to guide the development of next-generation models. The OpenING is
open-sourced at https://opening.github.io.Summary
AI-Generated Summary