LEOPARD: 텍스트가 풍부한 다중 이미지 작업을 위한 비전 언어 모델
LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks
October 2, 2024
저자: Mengzhao Jia, Wenhao Yu, Kaixin Ma, Tianqing Fang, Zhihan Zhang, Siru Ouyang, Hongming Zhang, Meng Jiang, Dong Yu
cs.AI
초록
텍스트가 중심적인 시각 요소로 작용하여 전반적인 이해를 이끌어내는 텍스트 풍부 이미지는 발표 슬라이드, 스캔된 문서, 그리고 웹페이지 스냅샷과 같은 실제 응용 프로그램에서 흔히 볼 수 있습니다. 여러 텍스트 풍부 이미지를 포함하는 작업은 특히 도전적인데, 개별 이미지의 내용을 이해하는 것뿐만 아니라 여러 시각적 입력에 걸쳐 상호 관계와 논리적 흐름을 추론해야하기 때문입니다. 이러한 시나리오의 중요성에도 불구하고, 현재의 다중 모달 대형 언어 모델(MLLMs)은 두 가지 주요 도전에 직면하여 이러한 작업을 처리하는 데 어려움을 겪고 있습니다: (1) 텍스트 풍부 다중 이미지 시나리오를 위한 고품질 지시 조정 데이터의 부족, 그리고 (2) 이미지 해상도와 시각적 특징 시퀀스 길이의 균형을 맞추는 것이 어렵다는 점입니다. 이러한 도전에 대처하기 위해, 우리는 \OurMethod을 제안합니다. 이는 여러 텍스트 풍부 이미지를 포함하는 시각-언어 작업을 처리하기 위해 특별히 설계된 MLLM입니다. 먼저, 텍스트 풍부하고 다중 이미지 시나리오에 맞춘 약 100만 개의 고품질 다중 모달 지시 조정 데이터를 선별했습니다. 둘째, 입력 이미지의 원본 종횡비와 해상도를 기반으로 시각적 시퀀스 길이의 할당을 동적으로 최적화하는 적응형 고해상도 다중 이미지 인코딩 모듈을 개발했습니다. 다양한 벤치마크를 통한 실험 결과는 우리 모델이 텍스트 풍부한 다중 이미지 평가에서 우수한 성능을 보이며 일반 도메인 평가에서도 경쟁력 있는 성과를 거두었음을 보여줍니다.
English
Text-rich images, where text serves as the central visual element guiding the
overall understanding, are prevalent in real-world applications, such as
presentation slides, scanned documents, and webpage snapshots. Tasks involving
multiple text-rich images are especially challenging, as they require not only
understanding the content of individual images but reasoning about
inter-relationships and logical flows across multiple visual inputs. Despite
the importance of these scenarios, current multimodal large language models
(MLLMs) struggle to handle such tasks due to two key challenges: (1) the
scarcity of high-quality instruction tuning datasets for text-rich multi-image
scenarios, and (2) the difficulty in balancing image resolution with visual
feature sequence length. To address these challenges, we propose \OurMethod, a
MLLM designed specifically for handling vision-language tasks involving
multiple text-rich images. First, we curated about one million high-quality
multimodal instruction-tuning data, tailored to text-rich, multi-image
scenarios. Second, we developed an adaptive high-resolution multi-image
encoding module to dynamically optimize the allocation of visual sequence
length based on the original aspect ratios and resolutions of the input images.
Experiments across a wide range of benchmarks demonstrate our model's superior
capabilities in text-rich, multi-image evaluations and competitive performance
in general domain evaluations.Summary
AI-Generated Summary