Quando le Parole Superano la Visione: i Modelli Linguistico-Visuali Possono Migliorarsi Attraverso l'Addestramento su Solo Testo per Decisioni Centrate sull'Uomo
When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making
March 21, 2025
Autori: Zhe Hu, Jing Li, Yu Yin
cs.AI
Abstract
La decisione incarnata è fondamentale per gli agenti di intelligenza artificiale che operano in ambienti del mondo reale. Sebbene i Modelli Linguistico-Visivi (VLMs) abbiano fatto progressi in questa capacità, continuano a lottare con decisioni complesse, specialmente in situazioni centrate sull'uomo che richiedono un ragionamento approfondito sui bisogni e i valori umani. In questo studio, valutiamo sistematicamente i VLMs open-source su compiti di decisione multimodale centrati sull'uomo. Scopriamo che i Modelli Linguistici (LLMs) che ricevono solo descrizioni testuali superano inaspettatamente le loro controparti VLM di scala simile che elaborano immagini reali, suggerendo che l'allineamento visivo potrebbe ostacolare le capacità dei VLMs. Per affrontare questa sfida, proponiamo un nuovo approccio di addestramento esclusivamente testuale con dati testuali sintetizzati. Questo metodo rafforza i componenti linguistici dei VLMs e trasferisce le abilità apprese all'inferenza multimodale, eliminando la necessità di costosi dati accoppiati immagine-testo. Inoltre, dimostriamo che i VLMs possono ottenere significativi miglioramenti delle prestazioni attraverso l'auto-miglioramento, utilizzando dati di addestramento generati dalle loro controparti LLM piuttosto che affidarsi a modelli insegnanti più grandi come GPT-4. I nostri risultati stabiliscono un approccio più efficiente e scalabile per migliorare le capacità di decisione centrata sull'uomo dei VLMs, aprendo nuove strade per ottimizzare i VLMs attraverso meccanismi di auto-miglioramento.
English
Embodied decision-making is fundamental for AI agents operating in real-world
environments. While Visual Language Models (VLMs) have advanced this
capability, they still struggle with complex decisions, particularly in
human-centered situations that require deep reasoning about human needs and
values. In this study, we systematically evaluate open-sourced VLMs on
multimodal human-centered decision-making tasks. We find that LLMs receiving
only textual descriptions unexpectedly outperform their VLM counterparts of
similar scale that process actual images, suggesting that visual alignment may
hinder VLM abilities. To address this challenge, we propose a novel text-only
training approach with synthesized textual data. This method strengthens VLMs'
language components and transfers the learned abilities to multimodal
inference, eliminating the need for expensive image-text paired data.
Furthermore, we show that VLMs can achieve substantial performance gains
through self-improvement, using training data generated by their LLM
counterparts rather than relying on larger teacher models like GPT-4. Our
findings establish a more efficient and scalable approach to enhancing VLMs'
human-centered decision-making capabilities, opening new avenues for optimizing
VLMs through self-improvement mechanisms.Summary
AI-Generated Summary