ChatPaper.aiChatPaper

ZeroBench: 현대 대규모 멀티모달 모델을 위한 불가능한 시각적 벤치마크

ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

February 13, 2025
저자: Jonathan Roberts, Mohammad Reza Taesiri, Ansh Sharma, Akash Gupta, Samuel Roberts, Ioana Croitoru, Simion-Vlad Bogolin, Jialu Tang, Florian Langer, Vyas Raina, Vatsal Raina, Hanyi Xiong, Vishaal Udandarao, Jingyi Lu, Shiyang Chen, Sam Purkis, Tianshuo Yan, Wenye Lin, Gyungin Shin, Qiaochu Yang, Anh Totti Nguyen, Kai Han, Samuel Albanie
cs.AI

초록

대규모 멀티모달 모델(LMMs)은 이미지 해석에 있어 주요한 결함을 보이며, 일부 측면에서는 어린 아이나 동물들보다 공간 인지 능력이 떨어지는 것으로 나타났습니다. 그럼에도 불구하고, 이러한 모델들은 많은 인기 있는 시각적 벤치마크에서 높은 점수를 기록하고 있으며, 모델 발전의 급속한 진전으로 인해 향상 가능성이 빠르게 줄어들고 있습니다. 이를 해결하기 위해, 더 오랫동안 관련성을 유지하는 어려운 벤치마크가 시급히 필요합니다. 우리는 이 아이디어를 극한까지 끌어올려, 현존하는 최첨단 LMMs에게 전혀 해결할 수 없는 경량 시각적 추론 벤치마크인 ZeroBench를 소개합니다. 우리의 벤치마크는 수작업으로 선별된 100개의 질문과 334개의 덜 어려운 하위 질문으로 구성되어 있습니다. 우리는 20개의 LMMs를 ZeroBench에서 평가했으며, 모든 모델이 0.0%의 점수를 기록했고, 오류를 엄격히 분석했습니다. 시각적 이해의 진전을 촉진하기 위해, 우리는 ZeroBench를 공개적으로 공개합니다.
English
Large Multimodal Models (LMMs) exhibit major shortfalls when interpreting images and, by some measures, have poorer spatial cognition than small children or animals. Despite this, they attain high scores on many popular visual benchmarks, with headroom rapidly eroded by an ongoing surge of model progress. To address this, there is a pressing need for difficult benchmarks that remain relevant for longer. We take this idea to its limit by introducing ZeroBench-a lightweight visual reasoning benchmark that is entirely impossible for contemporary frontier LMMs. Our benchmark consists of 100 manually curated questions and 334 less difficult subquestions. We evaluate 20 LMMs on ZeroBench, all of which score 0.0%, and rigorously analyse the errors. To encourage progress in visual understanding, we publicly release ZeroBench.

Summary

AI-Generated Summary

PDF375February 17, 2025