ChatPaper.aiChatPaper

FUSION: Integrazione Completa delle Rappresentazioni Visivo-Linguistiche per una Profonda Comprensione Cross-Modale

FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding

April 14, 2025
Autori: Zheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang
cs.AI

Abstract

Presentiamo FUSION, una famiglia di modelli linguistici multimodali di grandi dimensioni (MLLMs) con un paradigma di allineamento e integrazione completo tra visione e linguaggio. A differenza dei metodi esistenti che si basano principalmente sull'interazione tardiva delle modalità durante la decodifica del LLM, il nostro approccio raggiunge un'integrazione profonda e dinamica lungo l'intera pipeline di elaborazione. A tal fine, proponiamo il Text-Guided Unified Vision Encoding, che incorpora informazioni testuali nella codifica visiva per ottenere un'integrazione a livello di pixel. Progettiamo inoltre il Context-Aware Recursive Alignment Decoding, che aggrega ricorsivamente le caratteristiche visive condizionate dal contesto testuale durante la decodifica, consentendo un'integrazione semantica fine e a livello di domanda. Per guidare la mappatura delle caratteristiche e mitigare le discrepanze tra le modalità, sviluppiamo il Dual-Supervised Semantic Mapping Loss. Inoltre, costruiamo un dataset Synthesized Language-Driven Question-Answer (QA) attraverso un nuovo metodo di sintesi dei dati, dando priorità a coppie QA di alta qualità per ottimizzare l'integrazione delle caratteristiche guidata dal testo. Su queste basi, addestriamo FUSION su due scale—3B, 8B—e dimostriamo che il nostro approccio di integrazione completa delle modalità supera significativamente i metodi esistenti con soli 630 token visivi. In particolare, FUSION 3B supera Cambrian-1 8B e Florence-VL 8B nella maggior parte dei benchmark. FUSION 3B continua a superare Cambrian-1 8B anche quando limitato a 300 token visivi. I nostri studi di ablazione mostrano che FUSION supera LLaVA-NeXT su più della metà dei benchmark nella stessa configurazione senza risoluzione dinamica, evidenziando l'efficacia del nostro approccio. Rilasciamo il nostro codice, i pesi del modello e il dataset. https://github.com/starriver030515/FUSION
English
We introduce FUSION, a family of multimodal large language models (MLLMs) with a fully vision-language alignment and integration paradigm. Unlike existing methods that primarily rely on late-stage modality interaction during LLM decoding, our approach achieves deep, dynamic integration throughout the entire processing pipeline. To this end, we propose Text-Guided Unified Vision Encoding, incorporating textual information in vision encoding to achieve pixel-level integration. We further design Context-Aware Recursive Alignment Decoding that recursively aggregates visual features conditioned on textual context during decoding, enabling fine-grained, question-level semantic integration. To guide feature mapping and mitigate modality discrepancies, we develop Dual-Supervised Semantic Mapping Loss. Additionally, we construct a Synthesized Language-Driven Question-Answer (QA) dataset through a new data synthesis method, prioritizing high-quality QA pairs to optimize text-guided feature integration. Building on these foundations, we train FUSION at two scales-3B, 8B-and demonstrate that our full-modality integration approach significantly outperforms existing methods with only 630 vision tokens. Notably, FUSION 3B surpasses Cambrian-1 8B and Florence-VL 8B on most benchmarks. FUSION 3B continues to outperform Cambrian-1 8B even when limited to 300 vision tokens. Our ablation studies show that FUSION outperforms LLaVA-NeXT on over half of the benchmarks under same configuration without dynamic resolution, highlighting the effectiveness of our approach. We release our code, model weights, and dataset. https://github.com/starriver030515/FUSION

Summary

AI-Generated Summary

PDF363April 15, 2025