ChatPaper.aiChatPaper

Vision-R1: Evoluzione dell'Allineamento Senza Intervento Umano nei Grandi Modelli Visione-Linguaggio tramite Apprendimento per Rinforzo Guidato dalla Visione

Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning

March 23, 2025
Autori: Yufei Zhan, Yousong Zhu, Shurong Zheng, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI

Abstract

I Large Vision-Language Models (LVLMs) seguono tipicamente un paradigma di addestramento in due fasi: pre-training e fine-tuning supervisionato. Recentemente, l'ottimizzazione delle preferenze, derivata dal dominio del linguaggio, è emersa come una strategia di rinforzo post-addestramento efficace per potenziare le capacità dei LVLMs. Tuttavia, la costruzione di dati di preferenza annotati manualmente di alta qualità e lo sviluppo di modelli di ricompensa robusti per imitare queste preferenze sono sia costosi che impegnativi. Motivati da questa osservazione, proponiamo Vision-R1, un innovativo algoritmo di reinforcement learning di tipo R1 guidato dalla visione per i LVLMs che premia i modelli con feedback visivo definitivo. Esso sfrutta esclusivamente dati di istruzione curati, eliminando la necessità di modelli di ricompensa specializzati e dataset di preferenza creati manualmente. Incorporiamo una funzione di ricompensa basata su criteri che integra ulteriormente feedback multidimensionali per valutare in modo completo le completazioni del modello in base alla logica del task visivo. Inoltre, introduciamo una strategia di affinamento progressivo delle regole che adatta dinamicamente i criteri di ricompensa durante l'addestramento, consentendo un miglioramento continuo del modello e mitigando il fenomeno del reward hacking. Esperimenti estesi su benchmark sia in-distribuzione che out-of-distribuzione dimostrano che il fine-tuning dei LVLMs da 7B con Vision-R1 raggiunge guadagni di prestazioni consistenti, con miglioramenti fino al 50% e superando il modello state-of-the-art di dimensioni 10 volte maggiori.
English
Large Vision-Language Models (LVLMs) typically follow a two-stage training paradigm-pretraining and supervised fine-tuning. Recently, preference optimization, derived from the language domain, has emerged as an effective post-training reinforcement strategy to enhance capabilities of LVLMs. However, constructing high-quality human-annotated preference data and developing robust reward models to mimic these preferences are both costly and challenging. Motivated by this observation, we propose Vision-R1, a novel vision-guided R1-like reinforcement learning algorithm for LVLMs that rewards models with definitive vision feedback. It only leverages curated instruction data, eliminating the need for specialized reward models and handcrafted preference datasets. We incorporate a criterion-driven reward function that further integrates multi-dimensional feedback to evaluate model completions comprehensively based on the vision task logic. Furthermore, we introduce a progressive rule refinement strategy that dynamically adjusts the reward criteria during training, enabling continuous model improvement and mitigating reward hacking. Extensive experiments on both in-distribution and out-of-distribution benchmarks demonstrate that fine-tuning the 7B LVLMs with Vision-R1 achieves consistent performance gains, with even up to 50% improvement and surpassing the state-of-the-art 10x size model.

Summary

AI-Generated Summary

PDF192March 25, 2025