Ottimizzazione delle Preferenze dei Compiti: Miglioramento dei Grandi Modelli di Linguaggio Multimodali con Allineamento dei Compiti Visivi.
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment
December 26, 2024
Autori: Ziang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang, Yu Qiao, Limin Wang, Yi Wang
cs.AI
Abstract
Gli attuali modelli linguistici multimodali di grandi dimensioni (MLLM) faticano a comprendere in modo dettagliato o preciso le componenti visive, anche se forniscono una percezione e un ragionamento completi in un'ampia gamma di applicazioni visive. Studi recenti sviluppano strumenti o unificano compiti visivi specifici nel framework autoregressivo, spesso a scapito delle prestazioni multimodali complessive. Per affrontare questo problema e potenziare i MLLM con compiti visivi in modo scalabile, proponiamo l'ottimizzazione delle preferenze dei compiti (TPO), un nuovo metodo che utilizza preferenze di compiti differenziabili derivati da tipici compiti visivi dettagliati. TPO introduce token di compito apprendibili che stabiliscono connessioni tra più testate specifiche del compito e il MLLM. Sfruttando etichette visive dettagliate durante l'addestramento, TPO potenzia significativamente le capacità multimodali del MLLM e le prestazioni specifiche del compito. Attraverso il co-addestramento multi-task all'interno di TPO, osserviamo benefici sinergici che migliorano le prestazioni dei singoli compiti oltre quanto ottenibile attraverso metodologie di addestramento single-task. La nostra implementazione di questo approccio con VideoChat e LLaVA dimostra un miglioramento complessivo delle prestazioni multimodali del 14,6% rispetto ai modelli di base. Inoltre, MLLM-TPO dimostra robuste capacità zero-shot su vari compiti, esibendo prestazioni paragonabili ai modelli supervisionati all'avanguardia. Il codice sarà rilasciato su https://github.com/OpenGVLab/TPO
English
Current multimodal large language models (MLLMs) struggle with fine-grained
or precise understanding of visuals though they give comprehensive perception
and reasoning in a spectrum of vision applications. Recent studies either
develop tool-using or unify specific visual tasks into the autoregressive
framework, often at the expense of overall multimodal performance. To address
this issue and enhance MLLMs with visual tasks in a scalable fashion, we
propose Task Preference Optimization (TPO), a novel method that utilizes
differentiable task preferences derived from typical fine-grained visual tasks.
TPO introduces learnable task tokens that establish connections between
multiple task-specific heads and the MLLM. By leveraging rich visual labels
during training, TPO significantly enhances the MLLM's multimodal capabilities
and task-specific performance. Through multi-task co-training within TPO, we
observe synergistic benefits that elevate individual task performance beyond
what is achievable through single-task training methodologies. Our
instantiation of this approach with VideoChat and LLaVA demonstrates an overall
14.6% improvement in multimodal performance compared to baseline models.
Additionally, MLLM-TPO demonstrates robust zero-shot capabilities across
various tasks, performing comparably to state-of-the-art supervised models. The
code will be released at https://github.com/OpenGVLab/TPOSummary
AI-Generated Summary