ChatPaper.aiChatPaper

OmniAlign-V: К улучшенному выравниванию MLLM с предпочтениями человека

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

February 25, 2025
Авторы: Xiangyu Zhao, Shengyuan Ding, Zicheng Zhang, Haian Huang, Maosong Cao, Weiyun Wang, Jiaqi Wang, Xinyu Fang, Wenhai Wang, Guangtao Zhai, Haodong Duan, Hua Yang, Kai Chen
cs.AI

Аннотация

Недавние достижения в области мульти-модальных моделей больших языков с открытым исходным кодом (MLLMs) в основном сосредоточены на улучшении основных возможностей, оставляя значительный разрыв в выравнивании с предпочтениями человека. В данной статье представлен OmniAlign-V, обширный набор данных из 200 тыс. высококачественных обучающих примеров, включающий разнообразные изображения, сложные вопросы и разнообразные форматы ответов для улучшения выравнивания MLLMs с предпочтениями человека. Мы также представляем MM-AlignBench, человеком аннотированный бенчмарк, специально разработанный для оценки соответствия MLLMs человеческим ценностям. Экспериментальные результаты показывают, что донастройка MLLMs с использованием OmniAlign-V, с применением надзорного донастройки (SFT) или прямой оптимизации предпочтений (DPO), значительно улучшает соответствие предпочтений человека, сохраняя или улучшая производительность на стандартных бенчмарках VQA, сохраняя их фундаментальные возможности. Наши наборы данных, бенчмарк, код и контрольные точки были опубликованы на https://github.com/PhoenixZ810/OmniAlign-V.
English
Recent advancements in open-source multi-modal large language models (MLLMs) have primarily focused on enhancing foundational capabilities, leaving a significant gap in human preference alignment. This paper introduces OmniAlign-V, a comprehensive dataset of 200K high-quality training samples featuring diverse images, complex questions, and varied response formats to improve MLLMs' alignment with human preferences. We also present MM-AlignBench, a human-annotated benchmark specifically designed to evaluate MLLMs' alignment with human values. Experimental results show that finetuning MLLMs with OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference Optimization (DPO), significantly enhances human preference alignment while maintaining or enhancing performance on standard VQA benchmarks, preserving their fundamental capabilities. Our datasets, benchmark, code and checkpoints have been released at https://github.com/PhoenixZ810/OmniAlign-V.

Summary

AI-Generated Summary

PDF682February 26, 2025