Verringerung von visuellem Vergessen durch Take-along-Visual-Conditioning für multimodale langfristige CoT-Argumentation
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning
March 17, 2025
Autoren: Hai-Long Sun, Zhun Sun, Houwen Peng, Han-Jia Ye
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Large Language Models (LLMs) haben verbesserte Fähigkeiten im logischen Denken gezeigt, die sich von Chain-of-Thought (CoT)-Prompting hin zu fortschrittlichen, produktorientierten Lösungen wie OpenAI o1 entwickelt haben. Während unserer Neuimplementierung dieses Modells stellten wir fest, dass Multimodale LLMs (MLLMs) bei Aufgaben, die visuelle Eingaben erfordern (z. B. Geometrieprobleme), Schwierigkeiten haben, den Fokus auf die visuellen Informationen aufrechtzuerhalten. Mit anderen Worten, MLLMs leiden unter einem allmählichen Nachlassen der Aufmerksamkeit für visuelle Informationen, während der Denkprozess fortschreitet, was zu textlastigen Ausgaben führt. Um dies zu untersuchen, entfernen wir Bild-Eingaben während langkettiger Denkprozesse. Konkret unterbrechen wir den Denkprozess in der Mitte und vollenden ihn dann erneut, wobei das Eingabebild entfernt wird. Wir beobachten nur einen Genauigkeitsverlust von ~2 % auf der Test-Hard-Teilmenge von MathVista, was zeigt, dass die textuellen Ausgaben des Modells den weiteren Denkprozess dominieren. Motiviert durch diese Erkenntnis schlagen wir Take-along Visual Conditioning (TVC) vor, eine Strategie, die die Bild-Eingabe auf kritische Denkphasen verschiebt und redundante visuelle Tokens durch dynamisches Pruning komprimiert. Diese Methodik hilft dem Modell, die Aufmerksamkeit auf die visuellen Komponenten während des gesamten Denkprozesses aufrechtzuerhalten. Unser Ansatz erreicht durchschnittlich state-of-the-art Leistung über fünf mathematische Denk-Benchmarks (+3,4 % im Vergleich zum vorherigen Sota) und demonstriert die Wirksamkeit von TVC bei der Verbesserung multimodaler Denksysteme.
English
Recent advancements in Large Language Models (LLMs) have demonstrated
enhanced reasoning capabilities, evolving from Chain-of-Thought (CoT) prompting
to advanced, product-oriented solutions like OpenAI o1. During our
re-implementation of this model, we noticed that in multimodal tasks requiring
visual input (e.g., geometry problems), Multimodal LLMs (MLLMs) struggle to
maintain focus on the visual information, in other words, MLLMs suffer from a
gradual decline in attention to visual information as reasoning progresses,
causing text-over-relied outputs. To investigate this, we ablate image inputs
during long-chain reasoning. Concretely, we truncate the reasoning process
midway, then re-complete the reasoning process with the input image removed. We
observe only a ~2% accuracy drop on MathVista's test-hard subset, revealing the
model's textual outputs dominate the following reasoning process. Motivated by
this, we propose Take-along Visual Conditioning (TVC), a strategy that shifts
image input to critical reasoning stages and compresses redundant visual tokens
via dynamic pruning. This methodology helps the model retain attention to the
visual components throughout the reasoning. Our approach achieves
state-of-the-art performance on average across five mathematical reasoning
benchmarks (+3.4% vs previous sota), demonstrating the effectiveness of TVC in
enhancing multimodal reasoning systems.Summary
AI-Generated Summary