DyMU : Fusion dynamique et défusion virtuelle pour des modèles de langage visuel efficaces
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs
April 23, 2025
Auteurs: Zhenhailong Wang, Senthil Purushwalkam, Caiming Xiong, Silvio Savarese, Heng Ji, Ran Xu
cs.AI
Résumé
Nous présentons DyMU, un cadre efficace et sans apprentissage qui réduit dynamiquement la charge computationnelle des modèles vision-langage (VLMs) tout en maintenant des performances élevées sur les tâches. Notre approche comprend deux composants clés. Premièrement, le Dynamic Token Merging (DToMe) réduit le nombre d'embeddings de tokens visuels en fusionnant les tokens similaires en fonction de la complexité de l'image, abordant ainsi l'inefficacité inhérente des sorties de longueur fixe dans les transformeurs visuels. Deuxièmement, le Virtual Token Unmerging (VTU) simule la séquence de tokens attendue pour les grands modèles de langage (LLMs) en reconstruisant efficacement la dynamique d'attention d'une séquence complète, préservant ainsi les performances en aval sans nécessiter de réglage supplémentaire. Contrairement aux approches précédentes, notre méthode adapte dynamiquement la compression des tokens au contenu de l'image et fonctionne entièrement sans apprentissage, la rendant directement applicable à la plupart des architectures VLM de pointe. Des expériences approfondies sur des tâches de compréhension d'images et de vidéos montrent que DyMU peut réduire le nombre moyen de tokens visuels de 32% à 85% tout en atteignant des performances comparables à celles des modèles utilisant des séquences complètes, y compris les encodeurs visuels basés sur AnyRes récemment popularisés. De plus, à travers des analyses qualitatives, nous démontrons que DToMe adapte efficacement la réduction des tokens en fonction de la complexité de l'image et, contrairement aux systèmes existants, offre aux utilisateurs un meilleur contrôle sur les coûts computationnels. Page du projet : https://mikewangwzhl.github.io/dymu/.
English
We present DyMU, an efficient, training-free framework that dynamically
reduces the computational burden of vision-language models (VLMs) while
maintaining high task performance. Our approach comprises two key components.
First, Dynamic Token Merging (DToMe) reduces the number of visual token
embeddings by merging similar tokens based on image complexity, addressing the
inherent inefficiency of fixed-length outputs in vision transformers. Second,
Virtual Token Unmerging (VTU) simulates the expected token sequence for large
language models (LLMs) by efficiently reconstructing the attention dynamics of
a full sequence, thus preserving the downstream performance without additional
fine-tuning. Unlike previous approaches, our method dynamically adapts token
compression to the content of the image and operates completely training-free,
making it readily applicable to most state-of-the-art VLM architectures.
Extensive experiments on image and video understanding tasks demonstrate that
DyMU can reduce the average visual token count by 32%-85% while achieving
comparable performance to full-length models across diverse VLM architectures,
including the recently popularized AnyRes-based visual encoders. Furthermore,
through qualitative analyses, we demonstrate that DToMe effectively adapts
token reduction based on image complexity and, unlike existing systems,
provides users more control over computational costs. Project page:
https://mikewangwzhl.github.io/dymu/.Summary
AI-Generated Summary