ChatPaper.aiChatPaper

Vision-R1: Entwicklung einer menschenfreien Ausrichtung in großen visuell-sprachlichen Modellen durch visuell gesteuertes Reinforcement Learning

Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning

March 23, 2025
Autoren: Yufei Zhan, Yousong Zhu, Shurong Zheng, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI

Zusammenfassung

Große Vision-Sprach-Modelle (LVLMs) folgen typischerweise einem zweistufigen Trainingsparadigma – Vortraining und überwachtes Feinabstimmen. Kürzlich hat sich die Präferenzoptimierung, die aus dem Sprachbereich abgeleitet wurde, als effektive Nachtrainings-Verstärkungsstrategie zur Verbesserung der Fähigkeiten von LVLMs herausgestellt. Die Erstellung hochwertiger, von Menschen annotierter Präferenzdaten und die Entwicklung robuster Belohnungsmodelle zur Nachahmung dieser Präferenzen sind jedoch sowohl kostspielig als auch herausfordernd. Motiviert durch diese Beobachtung schlagen wir Vision-R1 vor, einen neuartigen, vision-gesteuerten R1-ähnlichen Verstärkungslernalgorithmus für LVLMs, der Modelle mit definitivem visuellem Feedback belohnt. Es werden lediglich kuratierte Instruktionsdaten genutzt, wodurch der Bedarf an spezialisierten Belohnungsmodellen und handgefertigten Präferenzdatensätzen entfällt. Wir integrieren eine kriteriengetriebene Belohnungsfunktion, die mehrdimensionales Feedback weiter einbindet, um Modellabschlüsse umfassend basierend auf der Logik der Vision-Aufgabe zu bewerten. Darüber hinaus führen wir eine progressive Regelverfeinerungsstrategie ein, die die Belohnungskriterien während des Trainings dynamisch anpasst, wodurch eine kontinuierliche Verbesserung des Modells ermöglicht und Belohnungshacking gemindert wird. Umfangreiche Experimente sowohl auf In-Distribution- als auch Out-of-Distribution-Benchmarks zeigen, dass das Feinabstimmen der 7B LVLMs mit Vision-R1 konsistente Leistungssteigerungen erzielt, mit Verbesserungen von bis zu 50 % und sogar das state-of-the-art Modell mit 10-facher Größe übertrifft.
English
Large Vision-Language Models (LVLMs) typically follow a two-stage training paradigm-pretraining and supervised fine-tuning. Recently, preference optimization, derived from the language domain, has emerged as an effective post-training reinforcement strategy to enhance capabilities of LVLMs. However, constructing high-quality human-annotated preference data and developing robust reward models to mimic these preferences are both costly and challenging. Motivated by this observation, we propose Vision-R1, a novel vision-guided R1-like reinforcement learning algorithm for LVLMs that rewards models with definitive vision feedback. It only leverages curated instruction data, eliminating the need for specialized reward models and handcrafted preference datasets. We incorporate a criterion-driven reward function that further integrates multi-dimensional feedback to evaluate model completions comprehensively based on the vision task logic. Furthermore, we introduce a progressive rule refinement strategy that dynamically adjusts the reward criteria during training, enabling continuous model improvement and mitigating reward hacking. Extensive experiments on both in-distribution and out-of-distribution benchmarks demonstrate that fine-tuning the 7B LVLMs with Vision-R1 achieves consistent performance gains, with even up to 50% improvement and surpassing the state-of-the-art 10x size model.

Summary

AI-Generated Summary

PDF182March 25, 2025