ChatPaper.aiChatPaper

OpenVLThinker: Eine frühe Erkundung komplexer Vision-Sprache-Reasoning durch iteratives Selbstverbesserung

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

March 21, 2025
Autoren: Yihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang
cs.AI

Zusammenfassung

Jüngste Fortschritte, die von DeepSeek-R1 demonstriert wurden, haben gezeigt, dass komplexe Denkfähigkeiten in großen Sprachmodellen (LLMs), einschließlich anspruchsvoller Verhaltensweisen wie Selbstüberprüfung und Selbstkorrektur, durch Reinforcement Learning (RL) mit überprüfbaren Belohnungen erreicht werden können und die Modellleistung bei herausfordernden Aufgaben wie AIME erheblich verbessern. Motiviert durch diese Erkenntnisse untersucht unsere Studie, ob ähnliche Denkfähigkeiten erfolgreich in große Vision-Sprach-Modelle (LVLMs) integriert werden können und bewertet deren Auswirkungen auf anspruchsvolle multimodale Denkaufgaben. Wir betrachten einen Ansatz, der iterativ überwachtes Fein-Tuning (SFT) auf leichtgewichtigen Trainingsdaten und Reinforcement Learning (RL) nutzt, um die Modellgeneralisierung weiter zu verbessern. Zunächst wurden Denkfähigkeiten aus reinen Text-R1-Modellen destilliert, indem Denkschritte mithilfe hochwertiger Bildbeschreibungen aus diversen visuellen Datensätzen generiert wurden. Anschließend wurde das iterative RL-Training weitergeführt, um die Denkfähigkeiten zu verbessern, wobei das RL-verbesserte Modell jeder Iteration verfeinerte SFT-Datensätze für die nächste Runde erzeugte. Dieser iterative Prozess führte zu OpenVLThinker, einem LVLM, das durchweg verbesserte Denkleistungen auf anspruchsvollen Benchmarks wie MathVista, MathVerse und MathVision zeigt und damit das Potenzial unserer Strategie für robustes Vision-Sprach-Denken unterstreicht. Der Code, das Modell und die Daten sind unter https://github.com/yihedeng9/OpenVLThinker verfügbar.
English
Recent advancements demonstrated by DeepSeek-R1 have shown that complex reasoning abilities in large language models (LLMs), including sophisticated behaviors such as self-verification and self-correction, can be achieved by RL with verifiable rewards and significantly improves model performance on challenging tasks such as AIME. Motivated by these findings, our study investigates whether similar reasoning capabilities can be successfully integrated into large vision-language models (LVLMs) and assesses their impact on challenging multimodal reasoning tasks. We consider an approach that iteratively leverages supervised fine-tuning (SFT) on lightweight training data and Reinforcement Learning (RL) to further improve model generalization. Initially, reasoning capabilities were distilled from pure-text R1 models by generating reasoning steps using high-quality captions of the images sourced from diverse visual datasets. Subsequently, iterative RL training further enhance reasoning skills, with each iteration's RL-improved model generating refined SFT datasets for the next round. This iterative process yielded OpenVLThinker, a LVLM exhibiting consistently improved reasoning performance on challenging benchmarks such as MathVista, MathVerse, and MathVision, demonstrating the potential of our strategy for robust vision-language reasoning. The code, model and data are held at https://github.com/yihedeng9/OpenVLThinker.

Summary

AI-Generated Summary

PDF212March 24, 2025