Assistant de Recherche Visuelle : Renforcez les Modèles Vision-Language en tant que Moteurs de Recherche Multimodaux
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines
October 28, 2024
Auteurs: Zhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Résumé
Les moteurs de recherche permettent la récupération d'informations inconnues à partir de textes. Cependant, les méthodes traditionnelles montrent leurs limites lorsqu'il s'agit de comprendre du contenu visuel inconnu, tel que l'identification d'un objet que le modèle n'a jamais vu auparavant. Ce défi est particulièrement marqué pour les grands modèles vision-langage (VLM) : si le modèle n'a pas été exposé à l'objet représenté dans une image, il peine à générer des réponses fiables à la question de l'utilisateur concernant cette image. De plus, avec l'émergence continue de nouveaux objets et événements, la mise à jour fréquente des VLM est peu pratique en raison de lourdes charges computationnelles. Pour pallier cette limitation, nous proposons Vision Search Assistant, un nouveau cadre qui facilite la collaboration entre les VLM et les agents web. Cette approche exploite les capacités de compréhension visuelle des VLM et l'accès aux informations en temps réel des agents web pour réaliser une Génération Augmentée par Recherche en monde ouvert via le web. En intégrant les représentations visuelles et textuelles grâce à cette collaboration, le modèle peut fournir des réponses éclairées même lorsque l'image est nouvelle pour le système. Des expériences approfondies menées sur des bancs d'essai de questions-réponses à la fois en ensemble ouvert et en ensemble fermé démontrent que le Vision Search Assistant surpasse significativement les autres modèles et peut être largement appliqué aux VLM existants.
English
Search engines enable the retrieval of unknown information with texts.
However, traditional methods fall short when it comes to understanding
unfamiliar visual content, such as identifying an object that the model has
never seen before. This challenge is particularly pronounced for large
vision-language models (VLMs): if the model has not been exposed to the object
depicted in an image, it struggles to generate reliable answers to the user's
question regarding that image. Moreover, as new objects and events continuously
emerge, frequently updating VLMs is impractical due to heavy computational
burdens. To address this limitation, we propose Vision Search Assistant, a
novel framework that facilitates collaboration between VLMs and web agents.
This approach leverages VLMs' visual understanding capabilities and web agents'
real-time information access to perform open-world Retrieval-Augmented
Generation via the web. By integrating visual and textual representations
through this collaboration, the model can provide informed responses even when
the image is novel to the system. Extensive experiments conducted on both
open-set and closed-set QA benchmarks demonstrate that the Vision Search
Assistant significantly outperforms the other models and can be widely applied
to existing VLMs.Summary
AI-Generated Summary