교차되는 텍스트 및 이미지 생성을 위한 교차된 장면 그래프 평가
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment
November 26, 2024
저자: Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna
cs.AI
초록
많은 실제 사용자 쿼리(예: "계란 볶음밥을 어떻게 만들까요?")는 텍스트 단계와 이미지를 동반한 응답을 생성할 수 있는 시스템에서 혜택을 받을 수 있습니다. 이러한 모델은 쿡북과 유사하게 텍스트 단계와 이미지를 함께 생성하는 것을 목표로 하며, 이러한 모달리티 내에서 일관성을 보장하는 데 어려움을 겪습니다. 이러한 어려움을 해결하기 위해 우리는 ISG라는 상호 텍스트 및 이미지 생성을 위한 포괄적인 평가 프레임워크를 제시합니다. ISG는 텍스트와 이미지 블록 간의 관계를 포착하기 위해 씬 그래프 구조를 활용하며, 전체적, 구조적, 블록 수준 및 이미지별 네 가지 세부 수준에서 응답을 평가합니다. 이 다층 평가를 통해 일관성, 일관성 및 정확성에 대한 세밀한 평가가 가능하며 해석 가능한 질문-답변 피드백을 제공합니다. ISG와 함께, 우리는 8개 범주와 21개 하위 범주에서 1,150개의 샘플을 포함하는 ISG-Bench라는 벤치마크를 소개합니다. 이 벤치마크 데이터셋은 복잡한 언어-비전 종속성과 모델을 효과적으로 평가하기 위한 골든 답변을 포함하며, 스타일 전이와 같은 비전 중심 작업에 대한 도전적인 영역에서 모델을 평가합니다. ISG-Bench를 사용하여 최근 통합 비전-언어 모델이 상호 작용 컨텐츠를 생성하는 데 성능이 낮다는 것을 입증합니다. 별도의 언어 및 이미지 모델을 결합하는 구성적 접근은 전체적인 수준에서 통합 모델보다 111%의 성능 향상을 보여주지만, 그들의 성능은 블록 및 이미지 수준에서 여전히 최적이 아닙니다. 미래 작업을 위해, 우리는 "계획-실행-정제" 파이프라인을 활용하는 기준선 에이전트인 ISG-Agent를 개발하여 도구를 호출하고 122%의 성능 향상을 달성합니다.
English
Many real-world user queries (e.g. "How do to make egg fried rice?") could
benefit from systems capable of generating responses with both textual steps
with accompanying images, similar to a cookbook. Models designed to generate
interleaved text and images face challenges in ensuring consistency within and
across these modalities. To address these challenges, we present ISG, a
comprehensive evaluation framework for interleaved text-and-image generation.
ISG leverages a scene graph structure to capture relationships between text and
image blocks, evaluating responses on four levels of granularity: holistic,
structural, block-level, and image-specific. This multi-tiered evaluation
allows for a nuanced assessment of consistency, coherence, and accuracy, and
provides interpretable question-answer feedback. In conjunction with ISG, we
introduce a benchmark, ISG-Bench, encompassing 1,150 samples across 8
categories and 21 subcategories. This benchmark dataset includes complex
language-vision dependencies and golden answers to evaluate models effectively
on vision-centric tasks such as style transfer, a challenging area for current
models. Using ISG-Bench, we demonstrate that recent unified vision-language
models perform poorly on generating interleaved content. While compositional
approaches that combine separate language and image models show a 111%
improvement over unified models at the holistic level, their performance
remains suboptimal at both block and image levels. To facilitate future work,
we develop ISG-Agent, a baseline agent employing a "plan-execute-refine"
pipeline to invoke tools, achieving a 122% performance improvement.Summary
AI-Generated Summary