ChatPaper.aiChatPaper

Skywork R1V: Pionieristico Ragionamento Multimodale con Catena di Pensiero

Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

April 8, 2025
Autori: Yi Peng, Chris, Xiaokun Wang, Yichen Wei, Jiangbo Pei, Weijie Qiu, Ai Jian, Yunzhuo Hao, Jiachun Pan, Tianyidan Xie, Li Ge, Rongxian Zhuang, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Abstract

Presentiamo Skywork R1V, un modello di ragionamento multimodale che estende i modelli linguistici di grandi dimensioni (LLM) della serie R1 alle modalità visive attraverso un efficiente metodo di trasferimento multimodale. Sfruttando un proiettore visivo leggero, Skywork R1V facilita un adattamento multimodale senza soluzione di continuità, senza necessitare di riaddestramento né del modello linguistico di base né dell'encoder visivo. Per rafforzare l'allineamento visivo-testuale, proponiamo una strategia di ottimizzazione ibrida che combina l'Affinamento Supervisionato Iterativo (SFT) con l'Ottimizzazione delle Politiche Relative di Gruppo (GRPO), migliorando significativamente l'efficienza dell'integrazione cross-modale. Inoltre, introduciamo un approccio di distillazione a Catena di Pensiero (Chain-of-Thought) a lunghezza adattativa per la generazione di dati di ragionamento. Questo approccio ottimizza dinamicamente le lunghezze delle catene di ragionamento, migliorando così l'efficienza inferenziale e prevenendo un eccessivo sovraccarico di ragionamento. Le valutazioni empiriche dimostrano che Skywork R1V, con soli 38 miliardi di parametri, offre prestazioni competitive, raggiungendo un punteggio di 69,0 sul benchmark MMMU e 67,5 su MathVista. Allo stesso tempo, mantiene robuste prestazioni di ragionamento testuale, evidenziate da punteggi impressionanti di 72,0 su AIME e 94,0 su MATH500. I pesi del modello Skywork R1V sono stati resi pubblicamente disponibili per promuovere l'apertura e la riproducibilità.
English
We introduce Skywork R1V, a multimodal reasoning model extending the an R1-series Large language models (LLM) to visual modalities via an efficient multimodal transfer method. Leveraging a lightweight visual projector, Skywork R1V facilitates seamless multimodal adaptation without necessitating retraining of either the foundational language model or the vision encoder. To strengthen visual-text alignment, we propose a hybrid optimization strategy that combines Iterative Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO), significantly enhancing cross-modal integration efficiency. Additionally, we introduce an adaptive-length Chain-of-Thought distillation approach for reasoning data generation. This approach dynamically optimizes reasoning chain lengths, thereby enhancing inference efficiency and preventing excessive reasoning overthinking. Empirical evaluations demonstrate that Skywork R1V, with only 38B parameters, delivers competitive performance, achieving a score of 69.0 on the MMMU benchmark and 67.5 on MathVista. Meanwhile, it maintains robust textual reasoning performance, evidenced by impressive scores of 72.0 on AIME and 94.0 on MATH500. The Skywork R1V model weights have been publicly released to promote openness and reproducibility.

Summary

AI-Generated Summary

PDF793April 9, 2025