Pixel-SAIL: Un Singolo Trasformatore per la Comprensione Basata sui Pixel
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding
April 14, 2025
Autori: Tao Zhang, Xiangtai Li, Zilong Huang, Yanwei Li, Weixian Lei, Xueqing Deng, Shihao Chen, Shunping Ji, Jiashi Feng
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) raggiungono prestazioni notevoli in compiti di comprensione a livello di pixel fine-granulare. Tuttavia, tutti i lavori si basano pesantemente su componenti aggiuntivi, come l'encoder visivo (CLIP) e esperti di segmentazione, portando a un'elevata complessità del sistema e limitando la scalabilità del modello. In questo lavoro, il nostro obiettivo è esplorare un MLLM altamente semplificato senza introdurre componenti extra. Il nostro lavoro è motivato dai recenti studi sul design di un Single trAnsformer come modello unificato visione-linguaggio (SAIL), dove questi lavori apprendono congiuntamente token visivi e token di testo nei transformer. Presentiamo Pixel-SAIL, un singolo transformer per compiti MLLM a livello di pixel. In particolare, presentiamo tre miglioramenti tecnici rispetto alla baseline semplice. Innanzitutto, progettiamo un modulo di upsampling apprendibile per affinare le caratteristiche dei token visivi. In secondo luogo, proponiamo una nuova strategia di iniezione di prompt visivi per consentire al singolo transformer di comprendere gli input di prompt visivi e trarre vantaggio dalla fusione precoce degli embedding di prompt visivi e dei token visivi. In terzo luogo, introduciamo una strategia di distillazione di esperti visivi per migliorare in modo efficiente la capacità di estrazione di caratteristiche fine-granulari del singolo transformer. Inoltre, abbiamo raccolto un benchmark completo per la comprensione a livello di pixel (PerBench), utilizzando un controllo manuale. Include tre compiti: descrizione dettagliata degli oggetti, risposta a domande basate su prompt visivi e segmentazione di riferimento visivo-testuale. Esperimenti estesi su quattro benchmark di segmentazione di riferimento, un benchmark di prompt visivi e il nostro PerBench mostrano che il nostro Pixel-SAIL raggiunge risultati comparabili o addirittura migliori con una pipeline molto più semplice. Il codice e il modello saranno rilasciati su https://github.com/magic-research/Sa2VA.
English
Multimodal Large Language Models (MLLMs) achieve remarkable performance for
fine-grained pixel-level understanding tasks. However, all the works rely
heavily on extra components, such as vision encoder (CLIP), segmentation
experts, leading to high system complexity and limiting model scaling. In this
work, our goal is to explore a highly simplified MLLM without introducing extra
components. Our work is motivated by the recent works on Single trAnsformer as
a unified vIsion-Language Model (SAIL) design, where these works jointly learn
vision tokens and text tokens in transformers. We present Pixel-SAIL, a single
transformer for pixel-wise MLLM tasks. In particular, we present three
technical improvements on the plain baseline. First, we design a learnable
upsampling module to refine visual token features. Secondly, we propose a novel
visual prompt injection strategy to enable the single transformer to understand
visual prompt inputs and benefit from the early fusion of visual prompt
embeddings and vision tokens. Thirdly, we introduce a vision expert
distillation strategy to efficiently enhance the single transformer's
fine-grained feature extraction capability. In addition, we have collected a
comprehensive pixel understanding benchmark (PerBench), using a manual check.
It includes three tasks: detailed object description, visual prompt-based
question answering, and visual-text referring segmentation. Extensive
experiments on four referring segmentation benchmarks, one visual prompt
benchmark, and our PerBench show that our Pixel-SAIL achieves comparable or
even better results with a much simpler pipeline. Code and model will be
released at https://github.com/magic-research/Sa2VA.Summary
AI-Generated Summary