Auf dem Weg zu selbstverbessernder systematischer Kognition für die nächste Generation von Foundation MLLMs

Zusammenfassung

Trotz ihrer beeindruckenden Fähigkeiten stehen Multimodale Große Sprachmodelle (MLLMs) vor Herausforderungen bei der feingranularen Wahrnehmung und komplexen Schlussfolgerung. Vorherrschende multimodale Vortrainierungsansätze konzentrieren sich darauf, die Wahrnehmung durch das Training anhand hochwertiger Bildbeschreibungen zu verbessern, da die Sammlung von Chain-of-Thought (CoT)-Schlussfolgerungsdaten zur Verbesserung der Schlussfolgerung extrem kostspielig ist. Während die Nutzung fortschrittlicher MLLMs zur Generierung von Bildbeschreibungen die Skalierbarkeit erhöht, mangelt es den Ausgaben oft an Vollständigkeit und Genauigkeit. In diesem Artikel stellen wir Self-Improving Cognition (SIcog) vor, ein selbstlernendes Framework, das darauf abzielt, nächste Generationen von Foundation-MLLMs zu konstruieren, indem es deren systematische kognitive Fähigkeiten durch multimodales Vortraining mit selbstgenerierten Daten verbessert. Konkret schlagen wir Chain-of-Description vor, einen Ansatz, der die systematische Wahrnehmung eines MLLMs durch schrittweises visuelles Verständnis verbessert und so größere Vollständigkeit und Genauigkeit gewährleistet. Zusätzlich verwenden wir eine strukturierte CoT-Schlussfolgerungstechnik, um MLLMs zu befähigen, tiefgehende multimodale Schlussfolgerungen zu integrieren. Um ein Foundation-MLLM der nächsten Generation mit selbstverbesserter Kognition zu konstruieren, stattet SIcog zunächst ein MLLM mit systematischer Wahrnehmung und Schlussfolgerungsfähigkeiten unter Verwendung minimaler externer Annotationen aus. Die verbesserten Modelle generieren dann detaillierte Bildbeschreibungen und CoT-Schlussfolgerungsdaten, die durch Selbstkonsistenz weiter kuratiert werden. Diese kuratierten Daten werden schließlich für das multimodale Vortraining verwendet, um Foundation-Modelle der nächsten Generation zu entwickeln. Umfangreiche Experimente mit MLLMs sowohl in niedriger als auch in hoher Auflösung über diverse Benchmarks zeigen, dass SIcog mit lediglich 213K selbstgenerierten Vortrainingsdaten Foundation-MLLMs der nächsten Generation mit deutlich verbesserter Kognition erzeugt, die im Vergleich zu vorherrschenden Vortrainingsansätzen führende Benchmark-Leistungen erzielen.

English

Despite their impressive capabilities, Multimodal Large Language Models (MLLMs) face challenges with fine-grained perception and complex reasoning. Prevalent multimodal pre-training approaches focus on enhancing perception by training on high-quality image captions due to the extremely high cost of collecting chain-of-thought (CoT) reasoning data for improving reasoning. While leveraging advanced MLLMs for caption generation enhances scalability, the outputs often lack comprehensiveness and accuracy. In this paper, we introduce Self-Improving cognition (SIcog), a self-learning framework designed to construct next-generation foundation MLLMs by enhancing their systematic cognitive capabilities through multimodal pre-training with self-generated data. Specifically, we propose Chain-of-Description, an approach that improves an MLLM's systematic perception by enabling step-by-step visual understanding, ensuring greater comprehensiveness and accuracy. Additionally, we adopt a structured CoT reasoning technique to enable MLLMs to integrate in-depth multimodal reasoning. To construct a next-generation foundation MLLM with self-improved cognition, SIcog first equips an MLLM with systematic perception and reasoning abilities using minimal external annotations. The enhanced models then generate detailed captions and CoT reasoning data, which are further curated through self-consistency. This curated data is ultimately used for multimodal pre-training to develop next-generation foundation models. Extensive experiments on both low- and high-resolution MLLMs across diverse benchmarks demonstrate that, with merely 213K self-generated pre-training samples, SIcog produces next-generation foundation MLLMs with significantly improved cognition, achieving benchmark-leading performance compared to prevalent pre-training approaches.

Auf dem Weg zu selbstverbessernder systematischer Kognition für die nächste Generation von Foundation MLLMs

Towards Self-Improving Systematic Cognition for Next-Generation Foundation MLLMs

Zusammenfassung

Summary

Support

Support