LiveXiv -- Arxiv 논문 콘텐츠를 기반으로 한 멀티 모달 라이브 벤치마크

LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content

October 14, 2024
저자: Nimrod Shabtay, Felipe Maia Polo, Sivan Doveh, Wei Lin, M. Jehanzeb Mirza, Leshem Chosen, Mikhail Yurochkin, Yuekai Sun, Assaf Arbelle, Leonid Karlinsky, Raja Giryes
cs.AI

초록

웹에서 스크랩된 데이터를 사용한 멀티모달 모델의 대규모 훈련은 이러한 모델에 필요한 세계 지식을 효과적으로 부여하여 여러 하류 작업에서 효율적으로 수행하도록 하는 데 높은 유틸리티를 보여주었습니다. 그러나 웹에서 데이터를 스크랩하는 것의 단점 중 하나는 이러한 모델의 능력이 종종 평가되는 기준을 희생할 수 있다는 것입니다. 시험 데이터 오염을 방지하고 이러한 기본 모델의 능력을 실제로 테스트하기 위해 우리는 LiveXiv를 제안합니다: 과학 ArXiv 논문을 기반으로 하는 확장 가능한 진화하는 라이브 벤치마크. LiveXiv는 특정 타임스탬프에서 도메인별 원고에 액세스하고 시각적 질문-답변 쌍(VQA)을 자동으로 생성하는 것을 제안합니다. 이는 그림, 차트, 표와 같은 원고의 멀티모달 콘텐츠를 사용하여 인간 개입 없이 이루어집니다. 더불어, 우리는 모든 모델의 성능을 추정하는 효율적인 평가 접근 방식을 소개합니다. 이 방식은 모델의 일부만을 평가하여 진화하는 벤치마크 상의 모든 모델의 성능을 추정합니다. 이는 전체 평가 비용을 크게 줄입니다. 우리는 첫 번째 버전의 벤치마크에서 여러 개의 오픈 및 프로프리터리 대규모 멀티모달 모델(LMMs)을 벤치마킹하여 그 도전적인 성격을 보여주고 모델의 실제 능력을 드러냅니다. 마지막으로, 우리의 고품질에 대한 약속으로 수동으로 검증된 하위 집합을 수집하고 평가했습니다. 우리의 자동 주석과 전반적인 결과를 비교하여 성능 변동이 실제로 미미함을 발견했습니다 (<2.5%). 저희 데이터셋은 HuggingFace에서 온라인으로 제공되며, 저희 코드는 여기에서 이용 가능할 것입니다.
English
The large-scale training of multi-modal models on data scraped from the web has shown outstanding utility in infusing these models with the required world knowledge to perform effectively on multiple downstream tasks. However, one downside of scraping data from the web can be the potential sacrifice of the benchmarks on which the abilities of these models are often evaluated. To safeguard against test data contamination and to truly test the abilities of these foundation models we propose LiveXiv: A scalable evolving live benchmark based on scientific ArXiv papers. LiveXiv accesses domain-specific manuscripts at any given timestamp and proposes to automatically generate visual question-answer pairs (VQA). This is done without any human-in-the-loop, using the multi-modal content in the manuscripts, like graphs, charts, and tables. Moreover, we introduce an efficient evaluation approach that estimates the performance of all models on the evolving benchmark using evaluations of only a subset of models. This significantly reduces the overall evaluation cost. We benchmark multiple open and proprietary Large Multi-modal Models (LMMs) on the first version of our benchmark, showing its challenging nature and exposing the models true abilities, avoiding contamination. Lastly, in our commitment to high quality, we have collected and evaluated a manually verified subset. By comparing its overall results to our automatic annotations, we have found that the performance variance is indeed minimal (<2.5%). Our dataset is available online on HuggingFace, and our code will be available here.

Summary

AI-Generated Summary

PDF252November 16, 2024