MIA-DPO: Multi-Bild-Augmented Direct Preference Optimization für große Vision-Sprach-Modelle
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
October 23, 2024
Autoren: Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
Zusammenfassung
Die visuelle Präferenzabstimmung beinhaltet das Training von Large Vision-Language Models (LVLMs) zur Vorhersage menschlicher Präferenzen zwischen visuellen Eingaben. Dies wird typischerweise durch die Verwendung von gelabelten Datensätzen von ausgewählten/abgelehnten Paaren und die Anwendung von Optimierungsalgorithmen wie dem direkten Präferenzoptimierungsverfahren (DPO) erreicht. Bestehende visuelle Ausrichtungsmethoden, die hauptsächlich für Einzelbildszenarien konzipiert wurden, haben Schwierigkeiten, die Komplexität von Multi-Bild-Aufgaben effektiv zu bewältigen, aufgrund der Knappheit von vielfältigen Trainingsdaten und der hohen Kosten für die Annotation von ausgewählten/abgelehnten Paaren. Wir präsentieren Multi-Bild-augmentierte Direkte Präferenzoptimierung (MIA-DPO), einen Ansatz zur visuellen Präferenzabstimmung, der Multi-Bild-Eingaben effektiv verarbeitet. MIA-DPO mildert die Knappheit von vielfältigen Multi-Bild-Trainingsdaten, indem es Einzelbild-Daten mit nicht verwandten Bildern in Raster-Collagen oder Bild-in-Bild-Formaten erweitert, was die Kosten für die Annotation von Multi-Bild-Daten erheblich reduziert. Unsere Beobachtung zeigt, dass die Aufmerksamkeitswerte von LVLMs bei verschiedenen Bildern erheblich variieren. Wir verwenden Aufmerksamkeitswerte, um abgelehnte Antworten zu identifizieren und herauszufiltern, auf die das Modell fälschlicherweise fokussiert haben könnte. Unsere auf Aufmerksamkeit basierende Auswahl zur Konstruktion der ausgewählten/abgelehnten Paare erfolgt ohne (i) menschliche Annotation, (ii) zusätzliche Daten und (iii) externe Modelle oder APIs. MIA-DPO ist mit verschiedenen Architekturen kompatibel und übertrifft bestehende Methoden in fünf Multi-Bild-Benchmarks, wobei eine durchschnittliche Leistungssteigerung von 3,0% bei LLaVA-v1.5 und 4,3% bei dem kürzlich veröffentlichten InternLM-XC2.5 erzielt wird. Darüber hinaus hat MIA-DPO nur minimale Auswirkungen auf die Fähigkeit des Modells, Einzelbilder zu verstehen.
English
Visual preference alignment involves training Large Vision-Language Models
(LVLMs) to predict human preferences between visual inputs. This is typically
achieved by using labeled datasets of chosen/rejected pairs and employing
optimization algorithms like direct preference optimization (DPO). Existing
visual alignment methods, primarily designed for single-image scenarios,
struggle to effectively handle the complexity of multi-image tasks due to the
scarcity of diverse training data and the high cost of annotating
chosen/rejected pairs. We present Multi-Image Augmented Direct Preference
Optimization (MIA-DPO), a visual preference alignment approach that effectively
handles multi-image inputs. MIA-DPO mitigates the scarcity of diverse
multi-image training data by extending single-image data with unrelated images
arranged in grid collages or pic-in-pic formats, significantly reducing the
costs associated with multi-image data annotations. Our observation reveals
that attention values of LVLMs vary considerably across different images. We
use attention values to identify and filter out rejected responses the model
may have mistakenly focused on. Our attention-aware selection for constructing
the chosen/rejected pairs without relying on (i) human annotation, (ii) extra
data, and (iii) external models or APIs. MIA-DPO is compatible with various
architectures and outperforms existing methods on five multi-image benchmarks,
achieving an average performance boost of 3.0% on LLaVA-v1.5 and 4.3% on the
recent InternLM-XC2.5. Moreover, MIA-DPO has a minimal effect on the model's
ability to understand single images.Summary
AI-Generated Summary