Otimização de Preferência de Tarefas: Melhorando Modelos de Linguagem Multimodais de Grande Escala com Alinhamento de Tarefas de Visão
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment
December 26, 2024
Autores: Ziang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang, Yu Qiao, Limin Wang, Yi Wang
cs.AI
Resumo
Os atuais modelos de linguagem multimodais de grande escala (MLLMs) enfrentam dificuldades com a compreensão detalhada ou precisa de elementos visuais, embora ofereçam percepção abrangente e raciocínio em um espectro de aplicações de visão. Estudos recentes têm desenvolvido ferramentas ou unificado tarefas visuais específicas em um framework autoregressivo, frequentemente em detrimento do desempenho multimodal geral. Para lidar com essa questão e aprimorar os MLLMs com tarefas visuais de forma escalável, propomos a Otimização de Preferência de Tarefas (TPO), um método inovador que utiliza preferências de tarefas diferenciáveis derivadas de típicas tarefas visuais detalhadas. O TPO introduz tokens de tarefas aprendíveis que estabelecem conexões entre múltiplas cabeças específicas de tarefas e o MLLM. Ao aproveitar rótulos visuais ricos durante o treinamento, o TPO aprimora significativamente as capacidades multimodais do MLLM e o desempenho específico da tarefa. Através do treinamento conjunto de várias tarefas dentro do TPO, observamos benefícios sinérgicos que elevam o desempenho individual da tarefa além do que é alcançável por metodologias de treinamento de tarefa única. Nossa implementação dessa abordagem com VideoChat e LLaVA demonstra uma melhoria geral de 14,6% no desempenho multimodal em comparação com modelos de referência. Além disso, o MLLM-TPO demonstra robustas capacidades de zero-shot em várias tarefas, apresentando desempenho comparável a modelos supervisionados de última geração. O código será disponibilizado em https://github.com/OpenGVLab/TPO.
English
Current multimodal large language models (MLLMs) struggle with fine-grained
or precise understanding of visuals though they give comprehensive perception
and reasoning in a spectrum of vision applications. Recent studies either
develop tool-using or unify specific visual tasks into the autoregressive
framework, often at the expense of overall multimodal performance. To address
this issue and enhance MLLMs with visual tasks in a scalable fashion, we
propose Task Preference Optimization (TPO), a novel method that utilizes
differentiable task preferences derived from typical fine-grained visual tasks.
TPO introduces learnable task tokens that establish connections between
multiple task-specific heads and the MLLM. By leveraging rich visual labels
during training, TPO significantly enhances the MLLM's multimodal capabilities
and task-specific performance. Through multi-task co-training within TPO, we
observe synergistic benefits that elevate individual task performance beyond
what is achievable through single-task training methodologies. Our
instantiation of this approach with VideoChat and LLaVA demonstrates an overall
14.6% improvement in multimodal performance compared to baseline models.
Additionally, MLLM-TPO demonstrates robust zero-shot capabilities across
various tasks, performing comparably to state-of-the-art supervised models. The
code will be released at https://github.com/OpenGVLab/TPOSummary
AI-Generated Summary