GenHancer: Unvollkommene generative Modelle sind heimlich stark Vision-zentrierte Enhancer
GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers
March 25, 2025
Autoren: Shijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan
cs.AI
Zusammenfassung
Die Synergie zwischen generativen und diskriminativen Modellen erfährt zunehmende Aufmerksamkeit. Während das diskriminative Contrastive Language-Image Pre-Training (CLIP) in der Erfassung hochrangiger Semantik hervorragt, hat es Schwierigkeiten, fein abgestufte visuelle Details wahrzunehmen. Generell nutzen generative Modelle die visuellen Merkmale von CLIP als Bedingungen für die Rekonstruktion, um die Repräsentationen zu verbessern. Das zugrunde liegende Prinzip bleibt jedoch weitgehend unerforscht. In dieser Arbeit haben wir empirisch festgestellt, dass visuell perfekte Generierungen nicht immer optimal für die Verbesserung der Repräsentation sind. Der Kern liegt darin, fein abgestuftes Wissen effektiv aus generativen Modellen zu extrahieren, während irrelevante Informationen minimiert werden. Um kritische Faktoren zu untersuchen, gehen wir auf drei Aspekte ein: (1) Konditionierungsmechanismen: Wir fanden heraus, dass bereits eine kleine Anzahl lokaler Token die Rekonstruktionsschwierigkeit drastisch verringern kann, was zu einem Zusammenbruch des Trainings führt. Daher schließen wir, dass die Nutzung ausschließlich globaler visueller Token als Bedingungen die effektivste Strategie ist. (2) Denoising-Konfigurationen: Wir beobachteten, dass end-to-end-Training zusätzliche Informationen einführt. Um dies zu adressieren, schlagen wir eine zweistufige Trainingsstrategie vor, um das Lernen nützlicher visueller Kenntnisse zu priorisieren. Zudem zeigen wir, dass leichte Denoiser bemerkenswerte Verbesserungen erzielen können. (3) Generierungsparadigmen: Wir untersuchen sowohl kontinuierliche als auch diskrete Denoiser mit positiven Ergebnissen, was die Vielseitigkeit unserer Methode bestätigt. Durch unsere tiefgehenden Untersuchungen haben wir schließlich eine effektive Methode entwickelt, nämlich GenHancer, die auf dem MMVP-VLM-Benchmark durchweg frühere Ansätze übertrifft, z.B. um 6,0 % bei OpenAICLIP. Das verbesserte CLIP kann weiterhin in multimodale große Sprachmodelle integriert werden, um eine bessere visuell-zentrierte Leistung zu erzielen. Alle Modelle und Codes sind öffentlich verfügbar.
English
The synergy between generative and discriminative models receives growing
attention. While discriminative Contrastive Language-Image Pre-Training (CLIP)
excels in high-level semantics, it struggles with perceiving fine-grained
visual details. Generally, to enhance representations, generative models take
CLIP's visual features as conditions for reconstruction. However, the
underlying principle remains underexplored. In this work, we empirically found
that visually perfect generations are not always optimal for representation
enhancement. The essence lies in effectively extracting fine-grained knowledge
from generative models while mitigating irrelevant information. To explore
critical factors, we delve into three aspects: (1) Conditioning mechanisms: We
found that even a small number of local tokens can drastically reduce the
difficulty of reconstruction, leading to collapsed training. We thus conclude
that utilizing only global visual tokens as conditions is the most effective
strategy. (2) Denoising configurations: We observed that end-to-end training
introduces extraneous information. To address this, we propose a two-stage
training strategy to prioritize learning useful visual knowledge. Additionally,
we demonstrate that lightweight denoisers can yield remarkable improvements.
(3) Generation paradigms: We explore both continuous and discrete denoisers
with desirable outcomes, validating the versatility of our method. Through our
in-depth explorations, we have finally arrived at an effective method, namely
GenHancer, which consistently outperforms prior arts on the MMVP-VLM benchmark,
e.g., 6.0% on OpenAICLIP. The enhanced CLIP can be further plugged into
multimodal large language models for better vision-centric performance. All the
models and codes are made publicly available.Summary
AI-Generated Summary