ChatPaper.aiChatPaper

Wenn Worte die Vision übertreffen: VLMs können sich selbst durch textbasierte Trainings für menschenzentrierte Entscheidungsfindung verbessern

When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

March 21, 2025
Autoren: Zhe Hu, Jing Li, Yu Yin
cs.AI

Zusammenfassung

Verankerte Entscheidungsfindung ist grundlegend für KI-Agenten, die in realen Umgebungen operieren. Obwohl visuelle Sprachmodelle (VLMs) diese Fähigkeit vorangetrieben haben, kämpfen sie immer noch mit komplexen Entscheidungen, insbesondere in menschenzentrierten Situationen, die ein tiefes Verständnis menschlicher Bedürfnisse und Werte erfordern. In dieser Studie evaluieren wir systematisch Open-Source-VLMs anhand multimodaler, menschenzentrierter Entscheidungsaufgaben. Wir stellen fest, dass große Sprachmodelle (LLMs), die nur textuelle Beschreibungen erhalten, unerwartet ihre VLM-Pendants ähnlicher Größe, die tatsächliche Bilder verarbeiten, übertreffen. Dies deutet darauf hin, dass visuelle Ausrichtung die Fähigkeiten von VLMs beeinträchtigen könnte. Um diese Herausforderung zu bewältigen, schlagen wir einen neuartigen textbasierten Trainingsansatz mit synthetisierten Textdaten vor. Diese Methode stärkt die Sprachkomponenten von VLMs und überträgt die erlernten Fähigkeiten auf multimodale Inferenz, wodurch der Bedarf an teuren Bild-Text-Paarungen entfällt. Darüber hinaus zeigen wir, dass VLMs durch Selbstverbesserung erhebliche Leistungssteigerungen erzielen können, indem sie Trainingsdaten verwenden, die von ihren LLM-Pendants generiert werden, anstatt sich auf größere Lehrermodelle wie GPT-4 zu verlassen. Unsere Ergebnisse etablieren einen effizienteren und skalierbaren Ansatz zur Verbesserung der menschenzentrierten Entscheidungsfähigkeiten von VLMs und eröffnen neue Wege zur Optimierung von VLMs durch Selbstverbesserungsmechanismen.
English
Embodied decision-making is fundamental for AI agents operating in real-world environments. While Visual Language Models (VLMs) have advanced this capability, they still struggle with complex decisions, particularly in human-centered situations that require deep reasoning about human needs and values. In this study, we systematically evaluate open-sourced VLMs on multimodal human-centered decision-making tasks. We find that LLMs receiving only textual descriptions unexpectedly outperform their VLM counterparts of similar scale that process actual images, suggesting that visual alignment may hinder VLM abilities. To address this challenge, we propose a novel text-only training approach with synthesized textual data. This method strengthens VLMs' language components and transfers the learned abilities to multimodal inference, eliminating the need for expensive image-text paired data. Furthermore, we show that VLMs can achieve substantial performance gains through self-improvement, using training data generated by their LLM counterparts rather than relying on larger teacher models like GPT-4. Our findings establish a more efficient and scalable approach to enhancing VLMs' human-centered decision-making capabilities, opening new avenues for optimizing VLMs through self-improvement mechanisms.

Summary

AI-Generated Summary

PDF42March 26, 2025