Scala della ricerca temporale di inferenza con modello di valore di visione per un'ulteriore miglioramento della comprensione visiva.
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension
December 4, 2024
Autori: Wang Xiyao, Yang Zhengyuan, Li Linjie, Lu Hongjin, Xu Yuancheng, Lin Chung-Ching Lin, Lin Kevin, Huang Furong, Wang Lijuan
cs.AI
Abstract
Nonostante i significativi progressi nei modelli visione-linguaggio (VLM), mancano approcci efficaci per migliorare la qualità delle risposte attraverso la scalabilità del calcolo al momento dell'inferenza. Questa capacità è nota come passo fondamentale verso i modelli auto-miglioranti negli studi recenti sui grandi modelli linguistici. In questo articolo, presentiamo il Modello di Valore della Visione (VisVM) che può guidare la ricerca al momento dell'inferenza dei VLM per generare risposte con una migliore comprensione visiva. In particolare, VisVM non valuta solo la qualità della frase generata nel passo di ricerca attuale, ma prevede anche la qualità delle frasi successive che potrebbero derivare dal passo attuale, fornendo quindi un valore a lungo termine. In questo modo, VisVM indirizza i VLM lontano dalla generazione di frasi inclini all'allucinazione o con dettagli insufficienti, producendo così risposte di maggiore qualità. I risultati sperimentali dimostrano che la ricerca guidata da VisVM migliora significativamente la capacità dei VLM di generare didascalie descrittive con dettagli visivi più ricchi e meno allucinazioni, rispetto alla decodifica avida e ai metodi di ricerca con altri segnali di ricompensa visiva. Inoltre, scopriamo che l'auto-addestramento del modello con le didascalie guidate da VisVM migliora le prestazioni dei VLM su una vasta gamma di benchmark multimodali, indicando il potenziale per lo sviluppo di VLM auto-miglioranti. Il nostro modello di valore e il codice sono disponibili su https://github.com/si0wang/VisVM.
English
Despite significant advancements in vision-language models (VLMs), there
lacks effective approaches to enhance response quality by scaling
inference-time computation. This capability is known to be a core step towards
the self-improving models in recent large language model studies. In this
paper, we present Vision Value Model (VisVM) that can guide VLM inference-time
search to generate responses with better visual comprehension. Specifically,
VisVM not only evaluates the generated sentence quality in the current search
step, but also anticipates the quality of subsequent sentences that may result
from the current step, thus providing a long-term value. In this way, VisVM
steers VLMs away from generating sentences prone to hallucinations or
insufficient detail, thereby producing higher quality responses. Experimental
results demonstrate that VisVM-guided search significantly enhances VLMs'
ability to generate descriptive captions with richer visual details and fewer
hallucinations, compared with greedy decoding and search methods with other
visual reward signals. Furthermore, we find that self-training the model with
the VisVM-guided captions improve VLM's performance across a wide range of
multimodal benchmarks, indicating the potential for developing self-improving
VLMs. Our value model and code are available at
https://github.com/si0wang/VisVM.Summary
AI-Generated Summary