Zoekassistent voor Visie: Maak Visie-Taalmodellen sterker als multimodale zoekmachines.
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines
October 28, 2024
Auteurs: Zhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Samenvatting
Zoekmachines maken het mogelijk om onbekende informatie op te halen met teksten. Traditionele methoden schieten echter tekort als het gaat om het begrijpen van onbekende visuele inhoud, zoals het identificeren van een object dat het model nog nooit heeft gezien. Deze uitdaging is met name duidelijk bij grote vision-language modellen (VLM's): als het model niet is blootgesteld aan het object dat wordt afgebeeld in een afbeelding, heeft het moeite om betrouwbare antwoorden te genereren op de vraag van de gebruiker over die afbeelding. Bovendien, doordat er voortdurend nieuwe objecten en gebeurtenissen opduiken, is het regelmatig bijwerken van VLM's onpraktisch vanwege zware rekenlasten. Om deze beperking aan te pakken, stellen we Vision Search Assistant voor, een nieuw kader dat samenwerking mogelijk maakt tussen VLM's en webagenten. Deze aanpak maakt gebruik van de visuele begripscapaciteiten van VLM's en de realtime informatie-toegang van webagenten om open-world Retrieval-Augmented Generation via het web uit te voeren. Door visuele en tekstuele representaties te integreren via deze samenwerking, kan het model geïnformeerde antwoorden geven, zelfs wanneer de afbeelding nieuw is voor het systeem. Uitgebreide experimenten uitgevoerd op zowel open-set als closed-set QA-benchmarks tonen aan dat de Vision Search Assistant aanzienlijk beter presteert dan de andere modellen en breed kan worden toegepast op bestaande VLM's.
English
Search engines enable the retrieval of unknown information with texts.
However, traditional methods fall short when it comes to understanding
unfamiliar visual content, such as identifying an object that the model has
never seen before. This challenge is particularly pronounced for large
vision-language models (VLMs): if the model has not been exposed to the object
depicted in an image, it struggles to generate reliable answers to the user's
question regarding that image. Moreover, as new objects and events continuously
emerge, frequently updating VLMs is impractical due to heavy computational
burdens. To address this limitation, we propose Vision Search Assistant, a
novel framework that facilitates collaboration between VLMs and web agents.
This approach leverages VLMs' visual understanding capabilities and web agents'
real-time information access to perform open-world Retrieval-Augmented
Generation via the web. By integrating visual and textual representations
through this collaboration, the model can provide informed responses even when
the image is novel to the system. Extensive experiments conducted on both
open-set and closed-set QA benchmarks demonstrate that the Vision Search
Assistant significantly outperforms the other models and can be widely applied
to existing VLMs.Summary
AI-Generated Summary