ChatPaper.aiChatPaper

SoTA con Meno: Selezione dei Campioni Guidata da MCTS per il Miglioramento Autonomo Efficace nei Dati nel Ragionamento Visivo

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

April 10, 2025
Autori: Xiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang
cs.AI

Abstract

In questo articolo, presentiamo un metodo efficace per migliorare il ragionamento visivo utilizzando un numero significativamente inferiore di campioni di addestramento, basandoci esclusivamente sull'auto-miglioramento senza distillazione di conoscenza. La nostra intuizione chiave è che la difficoltà dei dati di addestramento durante il fine-tuning con rinforzo (RFT) è cruciale. Campioni appropriatamente impegnativi possono potenziare notevolmente le capacità di ragionamento, anche quando il dataset è piccolo. Nonostante sia intuitivo, la sfida principale rimane nel quantificare accuratamente la difficoltà dei campioni per consentire un filtraggio efficace dei dati. A tal fine, proponiamo un nuovo modo di riutilizzare il Monte Carlo Tree Search (MCTS) per raggiungere questo obiettivo. Partendo dai nostri 70k campioni di addestramento open-source curati, introduciamo un metodo di selezione basato su MCTS che quantifica la difficoltà dei campioni in base al numero di iterazioni richieste dai VLMs per risolvere ciascun problema. Questo ragionamento esplicito passo-passo in MCTS costringe il modello a pensare più a lungo e identifica meglio i campioni che sono veramente impegnativi. Filtriamo e manteniamo 11k campioni per eseguire RFT su Qwen2.5-VL-7B-Instruct, ottenendo il nostro modello finale, ThinkLite-VL. I risultati di valutazione su otto benchmark mostrano che ThinkLite-VL migliora le prestazioni medie di Qwen2.5-VL-7B-Instruct del 7%, utilizzando solo 11k campioni di addestramento senza distillazione di conoscenza. Questo supera significativamente tutti i VLMs di ragionamento esistenti di livello 7B, e le nostre baseline abbastanza comparabili che utilizzano metodi di selezione classici come il filtraggio basato sull'accuratezza. In particolare, su MathVista, ThinkLite-VL-7B raggiunge l'accuratezza SoTA del 75.1, superando Qwen2.5-VL-72B, GPT-4o e O1. Il nostro codice, dati e modello sono disponibili su https://github.com/si0wang/ThinkLite-VL.
English
In this paper, we present an effective method to enhance visual reasoning with significantly fewer training samples, relying purely on self-improvement with no knowledge distillation. Our key insight is that the difficulty of training data during reinforcement fine-tuning (RFT) is critical. Appropriately challenging samples can substantially boost reasoning capabilities even when the dataset is small. Despite being intuitive, the main challenge remains in accurately quantifying sample difficulty to enable effective data filtering. To this end, we propose a novel way of repurposing Monte Carlo Tree Search (MCTS) to achieve that. Starting from our curated 70k open-source training samples, we introduce an MCTS-based selection method that quantifies sample difficulty based on the number of iterations required by the VLMs to solve each problem. This explicit step-by-step reasoning in MCTS enforces the model to think longer and better identifies samples that are genuinely challenging. We filter and retain 11k samples to perform RFT on Qwen2.5-VL-7B-Instruct, resulting in our final model, ThinkLite-VL. Evaluation results on eight benchmarks show that ThinkLite-VL improves the average performance of Qwen2.5-VL-7B-Instruct by 7%, using only 11k training samples with no knowledge distillation. This significantly outperforms all existing 7B-level reasoning VLMs, and our fairly comparable baselines that use classic selection methods such as accuracy-based filtering. Notably, on MathVista, ThinkLite-VL-7B achieves the SoTA accuracy of 75.1, surpassing Qwen2.5-VL-72B, GPT-4o, and O1. Our code, data, and model are available at https://github.com/si0wang/ThinkLite-VL.

Summary

AI-Generated Summary

PDF142April 11, 2025