VisOnlyQA: I Grandi Modelli di Linguaggio Visivo Continuano a Riscontrare Difficoltà nella Percezione Visiva delle Informazioni Geometriche
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information
December 1, 2024
Autori: Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang
cs.AI
Abstract
Gli errori nell'interpretazione delle informazioni visive nelle immagini (ovvero errori di percezione visiva) rimangono una fonte principale di errori nei Grandi Modelli di Linguaggio Visivo (LVLMs). Sebbene ulteriori analisi siano essenziali, esiste una carenza di set di dati per valutare la percezione visiva dei LVLMs. In questo lavoro, presentiamo VisOnlyQA, un nuovo set di dati progettato per valutare direttamente le capacità di percezione visiva dei LVLMs su domande riguardanti informazioni geometriche e numeriche in figure scientifiche. Il nostro set di dati ci consente di analizzare la percezione visiva dei LVLMs per informazioni visive dettagliate, indipendentemente da altre capacità come il ragionamento. Il set di valutazione di VisOnlyQA include 1.200 domande a scelta multipla in 12 compiti su quattro categorie di figure. Forniamo inoltre dati di addestramento sintetici composti da 70k istanze. I nostri esperimenti su VisOnlyQA mettono in luce le seguenti scoperte: (i) 20 LVLMs che valutiamo, tra cui GPT-4o e Gemini 1.5 Pro, funzionano male nei compiti di percezione visiva in VisOnlyQA, mentre le prestazioni umane sono quasi perfette. (ii) Il fine-tuning sui dati di addestramento sintetici dimostra il potenziale per migliorare la percezione visiva dei LVLMs, ma i miglioramenti osservati sono limitati a determinati compiti e modelli specifici. (iii) Modelli di linguaggio più potenti migliorano la percezione visiva dei LVLMs. In sintesi, i nostri esperimenti suggeriscono che sia i dati di addestramento che le architetture dei modelli dovrebbero essere migliorati per potenziare le capacità di percezione visiva dei LVLMs. I set di dati, il codice e le risposte del modello sono forniti su https://github.com/psunlpgroup/VisOnlyQA.
English
Errors in understanding visual information in images (i.e., visual perception
errors) remain a major source of mistakes in Large Vision Language Models
(LVLMs). While further analysis is essential, there is a deficiency in datasets
for evaluating the visual perception of LVLMs. In this work, we introduce
VisOnlyQA, a new dataset designed to directly evaluate the visual perception
capabilities of LVLMs on questions about geometric and numerical information in
scientific figures. Our dataset enables us to analyze the visual perception of
LVLMs for fine-grained visual information, independent of other capabilities
such as reasoning. The evaluation set of VisOnlyQA includes 1,200
multiple-choice questions in 12 tasks on four categories of figures. We also
provide synthetic training data consisting of 70k instances. Our experiments on
VisOnlyQA highlight the following findings: (i) 20 LVLMs we evaluate, including
GPT-4o and Gemini 1.5 Pro, work poorly on the visual perception tasks in
VisOnlyQA, while human performance is nearly perfect. (ii) Fine-tuning on
synthetic training data demonstrates the potential for enhancing the visual
perception of LVLMs, but observed improvements are limited to certain tasks and
specific models. (iii) Stronger language models improve the visual perception
of LVLMs. In summary, our experiments suggest that both training data and model
architectures should be improved to enhance the visual perception capabilities
of LVLMs. The datasets, code, and model responses are provided at
https://github.com/psunlpgroup/VisOnlyQA.Summary
AI-Generated Summary