ChatPaper.aiChatPaper

LMM-R1: Stärkung von 3B-LMMs mit robusten Fähigkeiten zur logischen Schlussfolgerung durch zweistufiges regelbasiertes Reinforcement Learning

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

March 10, 2025
Autoren: Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang
cs.AI

Zusammenfassung

Die Verbesserung der logischen Schlussfolgerung in großen multimodalen Modellen (LMMs) steht vor einzigartigen Herausforderungen, die sich aus dem komplexen Zusammenspiel zwischen visueller Wahrnehmung und logischem Denken ergeben, insbesondere in kompakten Architekturen mit 3 Milliarden Parametern, bei denen architektonische Einschränkungen die Denkfähigkeit und die Modalkoordination begrenzen. Während regelbasiertes Reinforcement Learning (RL) in rein textbasierten Domänen hervorragende Ergebnisse erzielt, stößt seine multimodale Erweiterung auf zwei kritische Hindernisse: (1) Datenbeschränkungen aufgrund mehrdeutiger Antworten und seltener Beispiele für komplexes logisches Denken sowie (2) eine beeinträchtigte grundlegende Denkfähigkeit, die durch multimodales Vortraining induziert wird. Um diese Herausforderungen zu bewältigen, schlagen wir \method vor, ein zweistufiges Framework, das regelbasiertes RL für multimodales logisches Denken durch eine Verbesserung der grundlegenden Denkfähigkeit (Foundational Reasoning Enhancement, FRE) gefolgt von einem multimodalen Generalisierungstraining (Multimodal Generalization Training, MGT) anpasst. Die FRE-Stärkung verbessert zunächst die Denkfähigkeiten mithilfe von rein textbasierten Daten und regelbasiertem RL, während die MGT-Stufe diese Fähigkeiten auf multimodale Domänen verallgemeinert. Experimente mit Qwen2.5-VL-Instruct-3B zeigen, dass \method durchschnittliche Verbesserungen von 4,83 % und 4,5 % gegenüber den Baselines in multimodalen und rein textbasierten Benchmarks erzielt, mit einem Zuwachs von 3,63 % bei komplexen Football-Game-Aufgaben. Diese Ergebnisse bestätigen, dass die textbasierte Verbesserung der Denkfähigkeit eine effektive multimodale Generalisierung ermöglicht und ein dateneffizientes Paradigma bietet, das kostspielige hochwertige multimodale Trainingsdaten umgeht.
English
Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges from the complex interplay between visual perception and logical reasoning, particularly in compact 3B-parameter architectures where architectural constraints limit reasoning capacity and modality alignment. While rule-based reinforcement learning (RL) excels in text-only domains, its multimodal extension confronts two critical barriers: (1) data limitations due to ambiguous answers and scarce complex reasoning examples, and (2) degraded foundational reasoning induced by multimodal pretraining. To address these challenges, we propose \method, a two-stage framework adapting rule-based RL for multimodal reasoning through Foundational Reasoning Enhancement (FRE) followed by Multimodal Generalization Training (MGT). The FRE stage first strengthens reasoning abilities using text-only data with rule-based RL, then the MGT stage generalizes these reasoning capabilities to multimodal domains. Experiments on Qwen2.5-VL-Instruct-3B demonstrate that \method achieves 4.83\% and 4.5\% average improvements over baselines in multimodal and text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game tasks. These results validate that text-based reasoning enhancement enables effective multimodal generalization, offering a data-efficient paradigm that bypasses costly high-quality multimodal training data.

Summary

AI-Generated Summary

PDF843March 12, 2025