ChatPaper.aiChatPaper

GTR: Geführtes Denkverstärkung verhindert Denkzusammenbruch beim RL-basierten Training von VLM-Agenten

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

March 11, 2025
Autoren: Tong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI

Zusammenfassung

Reinforcement Learning mit überprüfbaren Ergebnisbelohnungen (RLVR) hat das Chain-of-Thought (CoT)-Denken in großen Sprachmodellen (LLMs) effektiv skaliert. Seine Wirksamkeit beim Training von Vision-Language-Modell (VLM)-Agenten für zielgerichtetes Handlungsdenken in visuellen Umgebungen ist jedoch weniger etabliert. Diese Arbeit untersucht dieses Problem durch umfangreiche Experimente mit komplexen Kartenspielen wie 24-Punkte und verkörperten Aufgaben aus ALFWorld. Wir stellen fest, dass Belohnungen, die ausschließlich auf Handlungsergebnissen basieren, das CoT-Denken in VLMs nicht fördern, sondern zu einem Phänomen führen, das wir als Gedankenzusammenbruch bezeichnen. Dies ist gekennzeichnet durch einen schnellen Verlust der Vielfalt in den Gedanken des Agenten, zustandsirrelevantes und unvollständiges Denken sowie anschließende ungültige Aktionen, die zu negativen Belohnungen führen. Um dem Gedankenzusammenbruch entgegenzuwirken, betonen wir die Notwendigkeit von Prozessführung und schlagen einen automatischen Korrektor vor, der das Denken des Agenten in jedem RL-Schritt bewertet und verfeinert. Dieses einfache und skalierbare GTR (Guided Thought Reinforcement)-Framework trainiert Denken und Handlung gleichzeitig, ohne dass eine dichte, schrittweise menschliche Beschriftung erforderlich ist. Unsere Experimente zeigen, dass GTR die Leistung und Generalisierung des LLaVA-7b-Modells in verschiedenen visuellen Umgebungen erheblich verbessert und dabei 3-5 Mal höhere Aufgaben-Erfolgsraten im Vergleich zu State-of-the-Art-Modellen mit deutlich kleineren Modellgrößen erreicht.
English
Reinforcement learning with verifiable outcome rewards (RLVR) has effectively scaled up chain-of-thought (CoT) reasoning in large language models (LLMs). Yet, its efficacy in training vision-language model (VLM) agents for goal-directed action reasoning in visual environments is less established. This work investigates this problem through extensive experiments on complex card games, such as 24 points, and embodied tasks from ALFWorld. We find that when rewards are based solely on action outcomes, RL fails to incentivize CoT reasoning in VLMs, instead leading to a phenomenon we termed thought collapse, characterized by a rapid loss of diversity in the agent's thoughts, state-irrelevant and incomplete reasoning, and subsequent invalid actions, resulting in negative rewards. To counteract thought collapse, we highlight the necessity of process guidance and propose an automated corrector that evaluates and refines the agent's reasoning at each RL step. This simple and scalable GTR (Guided Thought Reinforcement) framework trains reasoning and action simultaneously without the need for dense, per-step human labeling. Our experiments demonstrate that GTR significantly enhances the performance and generalization of the LLaVA-7b model across various visual environments, achieving 3-5 times higher task success rates compared to SoTA models with notably smaller model sizes.

Summary

AI-Generated Summary

PDF152March 13, 2025