ChatPaper.aiChatPaper

MMSearch: 대형 모델의 잠재력을 다중 모달 검색 엔진으로 벤치마킹하기

MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines

September 19, 2024
저자: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li
cs.AI

초록

대형 언어 모델(LLMs)의 등장은 AI 검색 엔진, 예를 들어 SearchGPT,를 선보여 인간-인터넷 상호작용의 새로운 패러다임을 제시했습니다. 그러나 대부분의 현재 AI 검색 엔진은 텍스트만 있는 환경에 제한되어 있어 다중 모달 사용자 쿼리와 웹사이트 정보의 텍스트-이미지 교차 구조를 무시합니다. 최근에는 대형 다중 모달 모델(LMMs)이 놀라운 발전을 이루었습니다. 그러나 LMMs가 AI 검색 엔진으로 작동할 수 있는지 여전히 탐구되지 않은 상태이며, 다중 모달 검색에서 LMMs의 잠재력은 여전히 미지수입니다. 이를 위해 먼저 MMSearch-Engine이라는 정교한 파이프라인을 설계하여 어떤 LMMs에게도 다중 모달 검색 기능을 부여합니다. 이에 더하여, 우리는 다중 모달 검색 성능을 평가하기 위한 포괄적인 평가 기준인 MMSearch를 소개합니다. 선별된 데이터셋은 14개 하위 분야에 걸쳐 300개의 수동 수집된 인스턴스를 포함하며, 현재 LMMs의 훈련 데이터와 중복되지 않아 올바른 답변은 검색 내에서만 얻을 수 있도록 보장됩니다. MMSearch-Engine을 사용하여, LMMs는 세 가지 개별 작업(재쿼리, 재랭크 및 요약)과 완전한 검색 프로세스를 통한 어려운 종단간 작업을 수행하여 평가됩니다. 우리는 폐쇄 소스 및 오픈 소스 LMMs에 대해 광범위한 실험을 실시했습니다. 시험된 모든 모델 중에서 MMSearch-Engine을 사용한 GPT-4o가 최상의 결과를 달성했으며, 종단간 작업에서 상용 제품인 Perplexity Pro를 능가하여 우리가 제안한 파이프라인의 효과를 입증했습니다. 우리는 현재 LMMs가 여전히 다중 모달 검색 작업을 완전히 이해하기 어려워하는 것을 밝히기 위해 오류 분석을 제시하고, AI 검색 엔진을 위한 테스트 시간 계산의 확장 가능성을 나타내기 위해 소거 연구를 실시했습니다. MMSearch가 다중 모달 AI 검색 엔진의 미래 발전을 이끄는 독특한 통찰을 제공할 수 있기를 희망합니다. 프로젝트 페이지: https://mmsearch.github.io
English
The advent of Large Language Models (LLMs) has paved the way for AI search engines, e.g., SearchGPT, showcasing a new paradigm in human-internet interaction. However, most current AI search engines are limited to text-only settings, neglecting the multimodal user queries and the text-image interleaved nature of website information. Recently, Large Multimodal Models (LMMs) have made impressive strides. Yet, whether they can function as AI search engines remains under-explored, leaving the potential of LMMs in multimodal search an open question. To this end, we first design a delicate pipeline, MMSearch-Engine, to empower any LMMs with multimodal search capabilities. On top of this, we introduce MMSearch, a comprehensive evaluation benchmark to assess the multimodal search performance of LMMs. The curated dataset contains 300 manually collected instances spanning 14 subfields, which involves no overlap with the current LMMs' training data, ensuring the correct answer can only be obtained within searching. By using MMSearch-Engine, the LMMs are evaluated by performing three individual tasks (requery, rerank, and summarization), and one challenging end-to-end task with a complete searching process. We conduct extensive experiments on closed-source and open-source LMMs. Among all tested models, GPT-4o with MMSearch-Engine achieves the best results, which surpasses the commercial product, Perplexity Pro, in the end-to-end task, demonstrating the effectiveness of our proposed pipeline. We further present error analysis to unveil current LMMs still struggle to fully grasp the multimodal search tasks, and conduct ablation study to indicate the potential of scaling test-time computation for AI search engine. We hope MMSearch may provide unique insights to guide the future development of multimodal AI search engine. Project Page: https://mmsearch.github.io

Summary

AI-Generated Summary

PDF382November 16, 2024