Assistant de Recherche Visuelle : Renforcez les Modèles Vision-Language en tant que Moteurs de Recherche Multimodaux

Résumé

Les moteurs de recherche permettent la récupération d'informations inconnues à partir de textes. Cependant, les méthodes traditionnelles montrent leurs limites lorsqu'il s'agit de comprendre du contenu visuel inconnu, tel que l'identification d'un objet que le modèle n'a jamais vu auparavant. Ce défi est particulièrement marqué pour les grands modèles vision-langage (VLM) : si le modèle n'a pas été exposé à l'objet représenté dans une image, il peine à générer des réponses fiables à la question de l'utilisateur concernant cette image. De plus, avec l'émergence continue de nouveaux objets et événements, la mise à jour fréquente des VLM est peu pratique en raison de lourdes charges computationnelles. Pour pallier cette limitation, nous proposons Vision Search Assistant, un nouveau cadre qui facilite la collaboration entre les VLM et les agents web. Cette approche exploite les capacités de compréhension visuelle des VLM et l'accès aux informations en temps réel des agents web pour réaliser une Génération Augmentée par Recherche en monde ouvert via le web. En intégrant les représentations visuelles et textuelles grâce à cette collaboration, le modèle peut fournir des réponses éclairées même lorsque l'image est nouvelle pour le système. Des expériences approfondies menées sur des bancs d'essai de questions-réponses à la fois en ensemble ouvert et en ensemble fermé démontrent que le Vision Search Assistant surpasse significativement les autres modèles et peut être largement appliqué aux VLM existants.

English

Search engines enable the retrieval of unknown information with texts. However, traditional methods fall short when it comes to understanding unfamiliar visual content, such as identifying an object that the model has never seen before. This challenge is particularly pronounced for large vision-language models (VLMs): if the model has not been exposed to the object depicted in an image, it struggles to generate reliable answers to the user's question regarding that image. Moreover, as new objects and events continuously emerge, frequently updating VLMs is impractical due to heavy computational burdens. To address this limitation, we propose Vision Search Assistant, a novel framework that facilitates collaboration between VLMs and web agents. This approach leverages VLMs' visual understanding capabilities and web agents' real-time information access to perform open-world Retrieval-Augmented Generation via the web. By integrating visual and textual representations through this collaboration, the model can provide informed responses even when the image is novel to the system. Extensive experiments conducted on both open-set and closed-set QA benchmarks demonstrate that the Vision Search Assistant significantly outperforms the other models and can be widely applied to existing VLMs.

Assistant de Recherche Visuelle : Renforcez les Modèles Vision-Language en tant que Moteurs de Recherche Multimodaux

Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

Résumé

Support