ChatPaper.aiChatPaper

MM-IFEngine: Verso un'Intelligenza Artificiale Multimodale per il Rispetto delle Istruzioni

MM-IFEngine: Towards Multimodal Instruction Following

April 10, 2025
Autori: Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI

Abstract

La capacità di Instruction Following (IF) misura quanto bene i Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) comprendono esattamente ciò che gli utenti stanno comunicando e se stanno eseguendo correttamente le istruzioni. I dati esistenti per l'addestramento multimodale di instruction following sono scarsi, i benchmark sono semplici con istruzioni atomiche e le strategie di valutazione sono imprecise per i compiti che richiedono vincoli di output esatti. Per affrontare questo problema, presentiamo MM-IFEngine, una pipeline efficace per generare coppie immagine-istruzione di alta qualità. La nostra pipeline MM-IFEngine produce dati di addestramento su larga scala, diversificati e di alta qualità, denominati MM-IFInstruct-23k, adatti per il Fine-Tuning Supervisionato (SFT) e estesi come MM-IFDPO-23k per l'ottimizzazione diretta delle preferenze (DPO). Introduciamo inoltre MM-IFEval, un benchmark impegnativo e diversificato per il seguimento di istruzioni multimodali che include (1) sia vincoli a livello di composizione per le risposte in output che vincoli a livello di percezione legati alle immagini in input, e (2) una pipeline di valutazione completa che incorpora sia valutazioni basate su regole che un modello giudice. Condividiamo esperimenti di SFT e DPO e dimostriamo che il fine-tuning degli MLLMs su MM-IFInstruct-23k e MM-IFDPO-23k raggiunge miglioramenti significativi su vari benchmark IF, come MM-IFEval (+10,2%), MIA (+7,6%) e IFEval (+12,3%). I dati completi e il codice di valutazione saranno rilasciati su https://github.com/SYuan03/MM-IFEngine.
English
The Instruction Following (IF) ability measures how well Multi-modal Large Language Models (MLLMs) understand exactly what users are telling them and whether they are doing it right. Existing multimodal instruction following training data is scarce, the benchmarks are simple with atomic instructions, and the evaluation strategies are imprecise for tasks demanding exact output constraints. To address this, we present MM-IFEngine, an effective pipeline to generate high-quality image-instruction pairs. Our MM-IFEngine pipeline yields large-scale, diverse, and high-quality training data MM-IFInstruct-23k, which is suitable for Supervised Fine-Tuning (SFT) and extended as MM-IFDPO-23k for Direct Preference Optimization (DPO). We further introduce MM-IFEval, a challenging and diverse multi-modal instruction-following benchmark that includes (1) both compose-level constraints for output responses and perception-level constraints tied to the input images, and (2) a comprehensive evaluation pipeline incorporating both rule-based assessment and judge model. We conduct SFT and DPO experiments and demonstrate that fine-tuning MLLMs on MM-IFInstruct-23k and MM-IFDPO-23k achieves notable gains on various IF benchmarks, such as MM-IFEval (+10.2%), MIA (+7.6%), and IFEval (+12.3%). The full data and evaluation code will be released on https://github.com/SYuan03/MM-IFEngine.

Summary

AI-Generated Summary

PDF312April 11, 2025