Zoekassistent voor Visie: Maak Visie-Taalmodellen sterker als multimodale zoekmachines.

Samenvatting

Zoekmachines maken het mogelijk om onbekende informatie op te halen met teksten. Traditionele methoden schieten echter tekort als het gaat om het begrijpen van onbekende visuele inhoud, zoals het identificeren van een object dat het model nog nooit heeft gezien. Deze uitdaging is met name duidelijk bij grote vision-language modellen (VLM's): als het model niet is blootgesteld aan het object dat wordt afgebeeld in een afbeelding, heeft het moeite om betrouwbare antwoorden te genereren op de vraag van de gebruiker over die afbeelding. Bovendien, doordat er voortdurend nieuwe objecten en gebeurtenissen opduiken, is het regelmatig bijwerken van VLM's onpraktisch vanwege zware rekenlasten. Om deze beperking aan te pakken, stellen we Vision Search Assistant voor, een nieuw kader dat samenwerking mogelijk maakt tussen VLM's en webagenten. Deze aanpak maakt gebruik van de visuele begripscapaciteiten van VLM's en de realtime informatie-toegang van webagenten om open-world Retrieval-Augmented Generation via het web uit te voeren. Door visuele en tekstuele representaties te integreren via deze samenwerking, kan het model geïnformeerde antwoorden geven, zelfs wanneer de afbeelding nieuw is voor het systeem. Uitgebreide experimenten uitgevoerd op zowel open-set als closed-set QA-benchmarks tonen aan dat de Vision Search Assistant aanzienlijk beter presteert dan de andere modellen en breed kan worden toegepast op bestaande VLM's.

English

Search engines enable the retrieval of unknown information with texts. However, traditional methods fall short when it comes to understanding unfamiliar visual content, such as identifying an object that the model has never seen before. This challenge is particularly pronounced for large vision-language models (VLMs): if the model has not been exposed to the object depicted in an image, it struggles to generate reliable answers to the user's question regarding that image. Moreover, as new objects and events continuously emerge, frequently updating VLMs is impractical due to heavy computational burdens. To address this limitation, we propose Vision Search Assistant, a novel framework that facilitates collaboration between VLMs and web agents. This approach leverages VLMs' visual understanding capabilities and web agents' real-time information access to perform open-world Retrieval-Augmented Generation via the web. By integrating visual and textual representations through this collaboration, the model can provide informed responses even when the image is novel to the system. Extensive experiments conducted on both open-set and closed-set QA benchmarks demonstrate that the Vision Search Assistant significantly outperforms the other models and can be widely applied to existing VLMs.

Zoekassistent voor Visie: Maak Visie-Taalmodellen sterker als multimodale zoekmachines.

Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

Samenvatting

Summary

Support