LLaVA-UHD v2: un MLLM che integra una piramide di caratteristiche ad alta risoluzione tramite il Trasformatore di Finestre Gerarchico
LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer
December 18, 2024
Autori: Yipeng Zhang, Yifan Liu, Zonghao Guo, Yidan Zhang, Xuesong Yang, Chi Chen, Jun Song, Bo Zheng, Yuan Yao, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun
cs.AI
Abstract
Nei modelli di linguaggio multimodali di grandi dimensioni (MLLM), i trasformatori visivi (ViTs) sono ampiamente impiegati per l'encoding visivo. Tuttavia, le loro prestazioni nel risolvere compiti universali MLLM non sono soddisfacenti. Lo attribuiamo a una mancanza di informazioni provenienti da diversi livelli visivi, che ostacola l'allineamento con le varie granularità semantiche richieste per la generazione del linguaggio. Per affrontare questo problema, presentiamo LLaVA-UHD v2, un avanzato MLLM centrato attorno a un trasformatore gerarchico delle finestre che consente di catturare diverse granularità visive costruendo e integrando una piramide di caratteristiche ad alta risoluzione. Come proiettore visione-linguaggio, il trasformatore Hiwin è composto da due moduli principali: (i) una piramide di caratteristiche inversa, costruita da un processo di up-sampling delle caratteristiche derivato da ViT che utilizza dettagli ad alta frequenza da una piramide di immagini, e (ii) attenzione gerarchica alle finestre, focalizzata su un insieme di caratteristiche campionarie chiave all'interno di finestre cross-scala per condensare mappe di caratteristiche multi-livello. Estesi esperimenti dimostrano che LLaVA-UHD v2 raggiunge prestazioni superiori rispetto ai MLLM esistenti su benchmark popolari. In particolare, il nostro design porta a un aumento medio del 3,7% su 14 benchmark rispetto al metodo di base, come ad esempio il 9,3% su DocVQA. Mettiamo a disposizione pubblicamente tutti i dati, i checkpoint dei modelli e il codice per facilitare la ricerca futura.
English
In multimodal large language models (MLLMs), vision transformers (ViTs) are
widely employed for visual encoding. However, their performance in solving
universal MLLM tasks is not satisfactory. We attribute it to a lack of
information from diverse visual levels, impeding alignment with the various
semantic granularity required for language generation. To address this issue,
we present LLaVA-UHD v2, an advanced MLLM centered around a Hierarchical window
transformer that enables capturing diverse visual granularity by constructing
and integrating a high-resolution feature pyramid. As a vision-language
projector, Hiwin transformer comprises two primary modules: (i) an inverse
feature pyramid, constructed by a ViT-derived feature up-sampling process
utilizing high-frequency details from an image pyramid, and (ii) hierarchical
window attention, focusing on a set of key sampling features within cross-scale
windows to condense multi-level feature maps. Extensive experiments demonstrate
that LLaVA-UHD v2 achieves superior performance over existing MLLMs on popular
benchmarks. Notably, our design brings an average boost of 3.7% across 14
benchmarks compared with the baseline method, 9.3% on DocVQA for instance. We
make all the data, model checkpoint, and code publicly available to facilitate
future research.Summary
AI-Generated Summary