タスク選好の最適化:ビジョンタスクの整合性を利用したマルチモーダル大規模言語モデルの改善

Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

December 26, 2024
著者: Ziang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang, Yu Qiao, Limin Wang, Yi Wang
cs.AI

要旨

現在の多様なモーダルを持つ大規模言語モデル(MLLMs)は、視覚の微細な理解に苦労していますが、幅広いビジョンアプリケーションのスペクトルで包括的な知覚と推論を提供しています。最近の研究では、しばしば特定の視覚タスクを自己回帰フレームワークに統合するか、ツールを使用していますが、これはしばしば全体的な多様なモーダルのパフォーマンスを犠牲にしています。この問題に対処し、視覚タスクを拡張可能な方法でMLLMsを強化するために、典型的な微細な視覚タスクから導かれた差分可能なタスク優先度を利用する新しい方法であるタスク優先度最適化(TPO)を提案します。TPOは、学習可能なタスクトークンを導入し、複数のタスク固有のヘッドとMLLMとの間に接続を確立します。トレーニング中に豊富な視覚ラベルを活用することで、TPOはMLLMの多様なモーダル機能とタスク固有のパフォーマンスを大幅に向上させます。TPO内でのマルチタスク共同トレーニングにより、単一タスクトレーニング手法では達成できない個々のタスクのパフォーマンスを向上させる相乗効果が観察されます。VideoChatとLLaVAでこのアプローチを具体化することで、ベースラインモデルと比較して全体的な多様なモーダルのパフォーマンスが14.6%向上することを示します。さらに、MLLM-TPOは、様々なタスクにわたる堅牢なゼロショット機能を示し、最先端の教師付きモデルと同等のパフォーマンスを発揮します。コードはhttps://github.com/OpenGVLab/TPO で公開されます。
English
Current multimodal large language models (MLLMs) struggle with fine-grained or precise understanding of visuals though they give comprehensive perception and reasoning in a spectrum of vision applications. Recent studies either develop tool-using or unify specific visual tasks into the autoregressive framework, often at the expense of overall multimodal performance. To address this issue and enhance MLLMs with visual tasks in a scalable fashion, we propose Task Preference Optimization (TPO), a novel method that utilizes differentiable task preferences derived from typical fine-grained visual tasks. TPO introduces learnable task tokens that establish connections between multiple task-specific heads and the MLLM. By leveraging rich visual labels during training, TPO significantly enhances the MLLM's multimodal capabilities and task-specific performance. Through multi-task co-training within TPO, we observe synergistic benefits that elevate individual task performance beyond what is achievable through single-task training methodologies. Our instantiation of this approach with VideoChat and LLaVA demonstrates an overall 14.6% improvement in multimodal performance compared to baseline models. Additionally, MLLM-TPO demonstrates robust zero-shot capabilities across various tasks, performing comparably to state-of-the-art supervised models. The code will be released at https://github.com/OpenGVLab/TPO

Summary

AI-Generated Summary

PDF182December 30, 2024