Ausrichtung multimodaler LLM an menschlichen Präferenzen: Ein Überblick
Aligning Multimodal LLM with Human Preference: A Survey
March 18, 2025
Autoren: Tao Yu, Yi-Fan Zhang, Chaoyou Fu, Junkang Wu, Jinda Lu, Kun Wang, Xingyu Lu, Yunhang Shen, Guibin Zhang, Dingjie Song, Yibo Yan, Tianlong Xu, Qingsong Wen, Zhang Zhang, Yan Huang, Liang Wang, Tieniu Tan
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) können eine Vielzahl allgemeiner Aufgaben mit einfachen Prompts bewältigen, ohne dass eine aufgabenspezifische Schulung erforderlich ist. Multimodale Große Sprachmodelle (MLLMs), die auf LLMs aufbauen, haben beeindruckendes Potenzial bei der Bewältigung komplexer Aufgaben gezeigt, die visuelle, auditive und textuelle Daten umfassen. Kritische Fragen im Zusammenhang mit Wahrhaftigkeit, Sicherheit, o1-ähnlichem Denken und der Ausrichtung an menschlichen Präferenzen bleiben jedoch unzureichend behandelt. Diese Lücke hat die Entstehung verschiedener Alignment-Algorithmen vorangetrieben, die jeweils unterschiedliche Anwendungsszenarien und Optimierungsziele verfolgen. Jüngste Studien haben gezeigt, dass Alignment-Algorithmen ein wirksamer Ansatz zur Bewältigung der genannten Herausforderungen sind. In diesem Artikel streben wir eine umfassende und systematische Übersicht über Alignment-Algorithmen für MLLMs an. Insbesondere untersuchen wir vier Schlüsselaspekte: (1) die Anwendungsszenarien, die von Alignment-Algorithmen abgedeckt werden, einschließlich allgemeinem Bildverständnis, Multi-Bild-, Video- und Audioanwendungen sowie erweiterten multimodalen Anwendungen; (2) die Kernfaktoren bei der Erstellung von Alignment-Datensätzen, einschließlich Datenquellen, Modellantworten und Präferenzannotationen; (3) die Benchmarks, die zur Bewertung von Alignment-Algorithmen verwendet werden; und (4) eine Diskussion potenzieller zukünftiger Entwicklungsrichtungen für Alignment-Algorithmen. Diese Arbeit soll Forschern helfen, die aktuellen Fortschritte auf diesem Gebiet zu strukturieren und bessere Alignment-Methoden zu inspirieren. Die Projektseite dieses Artikels ist verfügbar unter https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
English
Large language models (LLMs) can handle a wide variety of general tasks with
simple prompts, without the need for task-specific training. Multimodal Large
Language Models (MLLMs), built upon LLMs, have demonstrated impressive
potential in tackling complex tasks involving visual, auditory, and textual
data. However, critical issues related to truthfulness, safety, o1-like
reasoning, and alignment with human preference remain insufficiently addressed.
This gap has spurred the emergence of various alignment algorithms, each
targeting different application scenarios and optimization goals. Recent
studies have shown that alignment algorithms are a powerful approach to
resolving the aforementioned challenges. In this paper, we aim to provide a
comprehensive and systematic review of alignment algorithms for MLLMs.
Specifically, we explore four key aspects: (1) the application scenarios
covered by alignment algorithms, including general image understanding,
multi-image, video, and audio, and extended multimodal applications; (2) the
core factors in constructing alignment datasets, including data sources, model
responses, and preference annotations; (3) the benchmarks used to evaluate
alignment algorithms; and (4) a discussion of potential future directions for
the development of alignment algorithms. This work seeks to help researchers
organize current advancements in the field and inspire better alignment
methods. The project page of this paper is available at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.Summary
AI-Generated Summary