Assistente di Ricerca Visiva: Potenziare i Modelli Visione-Linguaggio come Motori di Ricerca Multimodali
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines
October 28, 2024
Autori: Zhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Abstract
I motori di ricerca consentono di recuperare informazioni sconosciute tramite testi. Tuttavia, i metodi tradizionali risultano limitati nell'ambito della comprensione di contenuti visivi sconosciuti, come l'identificazione di un oggetto che il modello non ha mai visto prima. Questa sfida è particolarmente evidente per i grandi modelli visione-linguaggio (VLM): se il modello non è stato esposto all'oggetto raffigurato in un'immagine, fatica a generare risposte affidabili alla domanda dell'utente riguardo a quell'immagine. Inoltre, poiché nuovi oggetti ed eventi emergono continuamente, l'aggiornamento frequente dei VLM risulta impraticabile a causa di pesanti oneri computazionali. Per affrontare questa limitazione, proponiamo Vision Search Assistant, un nuovo framework che facilita la collaborazione tra i VLM e gli agenti web. Questo approccio sfrutta le capacità di comprensione visiva dei VLM e l'accesso in tempo reale alle informazioni degli agenti web per eseguire la Generazione potenziata da Recupero in un mondo aperto tramite il web. Integrando rappresentazioni visive e testuali attraverso questa collaborazione, il modello può fornire risposte informate anche quando l'immagine è nuova per il sistema. Estesi esperimenti condotti su benchmark di domande e risposte sia a insieme aperto che chiuso dimostrano che il Vision Search Assistant supera significativamente gli altri modelli e può essere ampiamente applicato ai VLM esistenti.
English
Search engines enable the retrieval of unknown information with texts.
However, traditional methods fall short when it comes to understanding
unfamiliar visual content, such as identifying an object that the model has
never seen before. This challenge is particularly pronounced for large
vision-language models (VLMs): if the model has not been exposed to the object
depicted in an image, it struggles to generate reliable answers to the user's
question regarding that image. Moreover, as new objects and events continuously
emerge, frequently updating VLMs is impractical due to heavy computational
burdens. To address this limitation, we propose Vision Search Assistant, a
novel framework that facilitates collaboration between VLMs and web agents.
This approach leverages VLMs' visual understanding capabilities and web agents'
real-time information access to perform open-world Retrieval-Augmented
Generation via the web. By integrating visual and textual representations
through this collaboration, the model can provide informed responses even when
the image is novel to the system. Extensive experiments conducted on both
open-set and closed-set QA benchmarks demonstrate that the Vision Search
Assistant significantly outperforms the other models and can be widely applied
to existing VLMs.Summary
AI-Generated Summary