MIA-DPO: Multi-Image Augmented Direct Preference Optimization voor Grote Visie-Taalmodellen
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
October 23, 2024
Auteurs: Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
Visuele voorkeursafstemming houdt in dat Grote Visie-Taalmodellen (GVLM's) worden getraind om menselijke voorkeuren tussen visuele invoer te voorspellen. Dit wordt typisch bereikt door gebruik te maken van gelabelde datasets van gekozen/afgewezen paren en het toepassen van optimalisatiealgoritmen zoals directe voorkeursoptimalisatie (DPO). Bestaande visuele afstemmingsmethoden, primair ontworpen voor scenario's met één afbeelding, hebben moeite om effectief om te gaan met de complexiteit van taken met meerdere afbeeldingen vanwege de schaarste aan diverse trainingsgegevens en de hoge kosten van het annoteren van gekozen/afgewezen paren. Wij presenteren Multi-Afbeelding Augmented Directe Voorkeursoptimalisatie (MIA-DPO), een benadering voor visuele voorkeursafstemming die effectief omgaat met invoer van meerdere afbeeldingen. MIA-DPO vermindert de schaarste aan diverse trainingsgegevens voor meerdere afbeeldingen door enkele afbeeldingsgegevens uit te breiden met niet-gerelateerde afbeeldingen gerangschikt in rastercollages of beeld-in-beeldformaten, waardoor de kosten van annotaties van meerdere afbeeldingen aanzienlijk worden verlaagd. Onze observatie onthult dat de aandachtswaarden van GVLM's aanzienlijk variëren over verschillende afbeeldingen. We gebruiken aandachtswaarden om afgewezen reacties te identificeren en filteren waar het model mogelijk ten onrechte op heeft gefocust. Onze aandachtbewuste selectie voor het construeren van de gekozen/afgewezen paren gebeurt zonder te vertrouwen op (i) menselijke annotatie, (ii) extra gegevens, en (iii) externe modellen of API's. MIA-DPO is compatibel met verschillende architecturen en presteert beter dan bestaande methoden op vijf benchmarks voor meerdere afbeeldingen, met een gemiddelde prestatieverbetering van 3,0% op LLaVA-v1.5 en 4,3% op de recente InternLM-XC2.5. Bovendien heeft MIA-DPO een minimaal effect op het vermogen van het model om enkele afbeeldingen te begrijpen.
English
Visual preference alignment involves training Large Vision-Language Models
(LVLMs) to predict human preferences between visual inputs. This is typically
achieved by using labeled datasets of chosen/rejected pairs and employing
optimization algorithms like direct preference optimization (DPO). Existing
visual alignment methods, primarily designed for single-image scenarios,
struggle to effectively handle the complexity of multi-image tasks due to the
scarcity of diverse training data and the high cost of annotating
chosen/rejected pairs. We present Multi-Image Augmented Direct Preference
Optimization (MIA-DPO), a visual preference alignment approach that effectively
handles multi-image inputs. MIA-DPO mitigates the scarcity of diverse
multi-image training data by extending single-image data with unrelated images
arranged in grid collages or pic-in-pic formats, significantly reducing the
costs associated with multi-image data annotations. Our observation reveals
that attention values of LVLMs vary considerably across different images. We
use attention values to identify and filter out rejected responses the model
may have mistakenly focused on. Our attention-aware selection for constructing
the chosen/rejected pairs without relying on (i) human annotation, (ii) extra
data, and (iii) external models or APIs. MIA-DPO is compatible with various
architectures and outperforms existing methods on five multi-image benchmarks,
achieving an average performance boost of 3.0% on LLaVA-v1.5 and 4.3% on the
recent InternLM-XC2.5. Moreover, MIA-DPO has a minimal effect on the model's
ability to understand single images.Summary
AI-Generated Summary