ChatPaper.aiChatPaper

Wenn Weniger Genügt: Adaptive Token-Reduktion für effiziente Bildrepräsentation

When Less is Enough: Adaptive Token Reduction for Efficient Image Representation

March 20, 2025
Autoren: Eduard Allakhverdov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI

Zusammenfassung

Vision-Encoder erzeugen typischerweise eine große Anzahl von visuellen Tokens, die informationsreiche Repräsentationen bieten, aber den Rechenaufwand erheblich erhöhen. Dies wirft die Frage auf, ob alle generierten Tokens gleichermaßen wertvoll sind oder ob einige davon verworfen werden können, um die Rechenkosten zu reduzieren, ohne die Qualität zu beeinträchtigen. In diesem Artikel stellen wir eine neue Methode zur Bestimmung der Nützlichkeit von Merkmalen vor, die auf der Idee basiert, dass weniger wertvolle Merkmale aus wertvolleren rekonstruiert werden können. Wir implementieren dieses Konzept, indem wir einen Autoencoder mit einem Gumbel-Softmax-Auswahlmechanismus kombinieren, der es ermöglicht, nur die informativsten visuellen Tokens zu identifizieren und beizubehalten. Um unseren Ansatz zu validieren, verglichen wir die Leistung des LLaVA-NeXT-Modells, das mit von unserer Methode ausgewählten Merkmalen arbeitet, mit zufällig ausgewählten Merkmalen. Wir fanden heraus, dass bei OCR-basierten Aufgaben mehr als 50 % des visuellen Kontexts entfernt werden können, ohne die Leistung wesentlich zu beeinträchtigen, während das zufällige Verwerfen des gleichen Anteils von Merkmalen die Modellfähigkeiten erheblich beeinträchtigt. Darüber hinaus erreicht bei allgemeinen Aufgaben sogar das zufällige Beibehalten von nur 30 % der Tokens eine Leistung, die der Verwendung des vollständigen Satzes von visuellen Tokens vergleichbar ist. Unsere Ergebnisse verdeutlichen eine vielversprechende Richtung hin zu adaptivem und effizientem multimodalem Pruning, das skalierbare und ressourcenschonende Inferenz ermöglicht, ohne die Leistung zu beeinträchtigen.
English
Vision encoders typically generate a large number of visual tokens, providing information-rich representations but significantly increasing computational demands. This raises the question of whether all generated tokens are equally valuable or if some of them can be discarded to reduce computational costs without compromising quality. In this paper, we introduce a new method for determining feature utility based on the idea that less valuable features can be reconstructed from more valuable ones. We implement this concept by integrating an autoencoder with a Gumbel-Softmax selection mechanism, that allows identifying and retaining only the most informative visual tokens. To validate our approach, we compared the performance of the LLaVA-NeXT model, using features selected by our method with randomly selected features. We found that on OCR-based tasks, more than 50% of the visual context can be removed with minimal performance loss, whereas randomly discarding the same proportion of features significantly affects the model capabilities. Furthermore, in general-domain tasks, even randomly retaining only 30% of tokens achieves performance comparable to using the full set of visual tokens. Our results highlight a promising direction towards adaptive and efficient multimodal pruning that facilitates scalable and low-overhead inference without compromising performance.

Summary

AI-Generated Summary

PDF702March 24, 2025