Vision-Suchassistent: Stärkung von Vision-Sprach-Modellen als multimodale Suchmaschinen
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines
October 28, 2024
Autoren: Zhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Zusammenfassung
Suchmaschinen ermöglichen die Wiederbeschaffung unbekannter Informationen anhand von Texten. Traditionelle Methoden stoßen jedoch an ihre Grenzen, wenn es darum geht, unbekannte visuelle Inhalte zu verstehen, wie z.B. die Identifizierung eines Objekts, das das Modell noch nie zuvor gesehen hat. Diese Herausforderung ist besonders ausgeprägt bei großen Vision-Language-Modellen (VLMs): Wenn das Modell noch nicht mit dem in einem Bild dargestellten Objekt in Kontakt gekommen ist, hat es Schwierigkeiten, zuverlässige Antworten auf die Frage des Benutzers zu diesem Bild zu generieren. Darüber hinaus ist es aufgrund hoher Rechenlasten unpraktisch, VLMs häufig zu aktualisieren, da ständig neue Objekte und Ereignisse auftauchen. Um diese Einschränkung zu überwinden, schlagen wir den Vision Search Assistant vor, ein neuartiges Framework, das die Zusammenarbeit zwischen VLMs und Web-Agenten erleichtert. Dieser Ansatz nutzt die visuellen Verständnisfähigkeiten von VLMs und den Echtzeit-Informationszugriff von Web-Agenten, um über das Web eine offene Retrieval-Augmented Generation durchzuführen. Durch die Integration von visuellen und textuellen Darstellungen durch diese Zusammenarbeit kann das Modell informierte Antworten geben, selbst wenn das Bild für das System neu ist. Umfangreiche Experimente, die an sowohl offenen als auch geschlossenen Frage-Antwort-Benchmarks durchgeführt wurden, zeigen, dass der Vision Search Assistant signifikant besser abschneidet als andere Modelle und weitreichend auf bestehende VLMs angewendet werden kann.
English
Search engines enable the retrieval of unknown information with texts.
However, traditional methods fall short when it comes to understanding
unfamiliar visual content, such as identifying an object that the model has
never seen before. This challenge is particularly pronounced for large
vision-language models (VLMs): if the model has not been exposed to the object
depicted in an image, it struggles to generate reliable answers to the user's
question regarding that image. Moreover, as new objects and events continuously
emerge, frequently updating VLMs is impractical due to heavy computational
burdens. To address this limitation, we propose Vision Search Assistant, a
novel framework that facilitates collaboration between VLMs and web agents.
This approach leverages VLMs' visual understanding capabilities and web agents'
real-time information access to perform open-world Retrieval-Augmented
Generation via the web. By integrating visual and textual representations
through this collaboration, the model can provide informed responses even when
the image is novel to the system. Extensive experiments conducted on both
open-set and closed-set QA benchmarks demonstrate that the Vision Search
Assistant significantly outperforms the other models and can be widely applied
to existing VLMs.Summary
AI-Generated Summary