ChatPaper.aiChatPaper

LiveVQA: Ricerca Visiva di Conoscenza in Tempo Reale

LiveVQA: Live Visual Knowledge Seeking

April 7, 2025
Autori: Mingyang Fu, Yuyang Peng, Benlin Liu, Yao Wan, Dongping Chen
cs.AI

Abstract

Presentiamo LiveVQA, un dataset raccolto automaticamente contenente le ultime conoscenze visive provenienti da Internet con problemi VQA sintetizzati. LiveVQA è composto da 3.602 domande visive a singolo e multi-hop tratte da 6 siti web di notizie in 14 categorie, caratterizzate da una coerenza di alta qualità tra immagini e testo e da informazioni autentiche. La nostra valutazione su 15 MLLM (ad esempio, GPT-4o, Gemma-3 e la famiglia Qwen-2.5-VL) dimostra che i modelli più potenti ottengono prestazioni migliori in generale, con capacità avanzate di ragionamento visivo che si rivelano cruciali per le domande multi-hop complesse. Nonostante le eccellenti prestazioni sui problemi testuali, i modelli dotati di strumenti come i motori di ricerca mostrano ancora lacune significative quando affrontano domande visive che richiedono le ultime conoscenze visive, evidenziando aree importanti per la ricerca futura.
English
We introduce LiveVQA, an automatically collected dataset of latest visual knowledge from the Internet with synthesized VQA problems. LiveVQA consists of 3,602 single- and multi-hop visual questions from 6 news websites across 14 news categories, featuring high-quality image-text coherence and authentic information. Our evaluation across 15 MLLMs (e.g., GPT-4o, Gemma-3, and Qwen-2.5-VL family) demonstrates that stronger models perform better overall, with advanced visual reasoning capabilities proving crucial for complex multi-hop questions. Despite excellent performance on textual problems, models with tools like search engines still show significant gaps when addressing visual questions requiring latest visual knowledge, highlighting important areas for future research.

Summary

AI-Generated Summary

PDF134April 8, 2025