Auf dem Weg zu selbstverbessernder systematischer Kognition für die nächste Generation von Foundation MLLMs
Towards Self-Improving Systematic Cognition for Next-Generation Foundation MLLMs
March 16, 2025
Autoren: Xiaoying Zhang, Da Peng, Yipeng Zhang, Zonghao Guo, Chengyue Wu, Chi Chen, Wei Ke, Helen Meng, Maosong Sun
cs.AI
Zusammenfassung
Trotz ihrer beeindruckenden Fähigkeiten stehen Multimodale Große Sprachmodelle (MLLMs) vor Herausforderungen bei der feingranularen Wahrnehmung und komplexen Schlussfolgerung. Vorherrschende multimodale Vortrainierungsansätze konzentrieren sich darauf, die Wahrnehmung durch das Training anhand hochwertiger Bildbeschreibungen zu verbessern, da die Sammlung von Chain-of-Thought (CoT)-Schlussfolgerungsdaten zur Verbesserung der Schlussfolgerung extrem kostspielig ist. Während die Nutzung fortschrittlicher MLLMs zur Generierung von Bildbeschreibungen die Skalierbarkeit erhöht, mangelt es den Ausgaben oft an Vollständigkeit und Genauigkeit. In diesem Artikel stellen wir Self-Improving Cognition (SIcog) vor, ein selbstlernendes Framework, das darauf abzielt, nächste Generationen von Foundation-MLLMs zu konstruieren, indem es deren systematische kognitive Fähigkeiten durch multimodales Vortraining mit selbstgenerierten Daten verbessert. Konkret schlagen wir Chain-of-Description vor, einen Ansatz, der die systematische Wahrnehmung eines MLLMs durch schrittweises visuelles Verständnis verbessert und so größere Vollständigkeit und Genauigkeit gewährleistet. Zusätzlich verwenden wir eine strukturierte CoT-Schlussfolgerungstechnik, um MLLMs zu befähigen, tiefgehende multimodale Schlussfolgerungen zu integrieren. Um ein Foundation-MLLM der nächsten Generation mit selbstverbesserter Kognition zu konstruieren, stattet SIcog zunächst ein MLLM mit systematischer Wahrnehmung und Schlussfolgerungsfähigkeiten unter Verwendung minimaler externer Annotationen aus. Die verbesserten Modelle generieren dann detaillierte Bildbeschreibungen und CoT-Schlussfolgerungsdaten, die durch Selbstkonsistenz weiter kuratiert werden. Diese kuratierten Daten werden schließlich für das multimodale Vortraining verwendet, um Foundation-Modelle der nächsten Generation zu entwickeln. Umfangreiche Experimente mit MLLMs sowohl in niedriger als auch in hoher Auflösung über diverse Benchmarks zeigen, dass SIcog mit lediglich 213K selbstgenerierten Vortrainingsdaten Foundation-MLLMs der nächsten Generation mit deutlich verbesserter Kognition erzeugt, die im Vergleich zu vorherrschenden Vortrainingsansätzen führende Benchmark-Leistungen erzielen.
English
Despite their impressive capabilities, Multimodal Large Language Models
(MLLMs) face challenges with fine-grained perception and complex reasoning.
Prevalent multimodal pre-training approaches focus on enhancing perception by
training on high-quality image captions due to the extremely high cost of
collecting chain-of-thought (CoT) reasoning data for improving reasoning. While
leveraging advanced MLLMs for caption generation enhances scalability, the
outputs often lack comprehensiveness and accuracy. In this paper, we introduce
Self-Improving cognition (SIcog), a self-learning framework designed to
construct next-generation foundation MLLMs by enhancing their systematic
cognitive capabilities through multimodal pre-training with self-generated
data. Specifically, we propose Chain-of-Description, an approach that improves
an MLLM's systematic perception by enabling step-by-step visual understanding,
ensuring greater comprehensiveness and accuracy. Additionally, we adopt a
structured CoT reasoning technique to enable MLLMs to integrate in-depth
multimodal reasoning. To construct a next-generation foundation MLLM with
self-improved cognition, SIcog first equips an MLLM with systematic perception
and reasoning abilities using minimal external annotations. The enhanced models
then generate detailed captions and CoT reasoning data, which are further
curated through self-consistency. This curated data is ultimately used for
multimodal pre-training to develop next-generation foundation models. Extensive
experiments on both low- and high-resolution MLLMs across diverse benchmarks
demonstrate that, with merely 213K self-generated pre-training samples, SIcog
produces next-generation foundation MLLMs with significantly improved
cognition, achieving benchmark-leading performance compared to prevalent
pre-training approaches.Summary
AI-Generated Summary