Quando le Parole Superano la Visione: i Modelli Linguistico-Visuali Possono Migliorarsi Attraverso l'Addestramento su Solo Testo per Decisioni Centrate sull'Uomo

Abstract

La decisione incarnata è fondamentale per gli agenti di intelligenza artificiale che operano in ambienti del mondo reale. Sebbene i Modelli Linguistico-Visivi (VLMs) abbiano fatto progressi in questa capacità, continuano a lottare con decisioni complesse, specialmente in situazioni centrate sull'uomo che richiedono un ragionamento approfondito sui bisogni e i valori umani. In questo studio, valutiamo sistematicamente i VLMs open-source su compiti di decisione multimodale centrati sull'uomo. Scopriamo che i Modelli Linguistici (LLMs) che ricevono solo descrizioni testuali superano inaspettatamente le loro controparti VLM di scala simile che elaborano immagini reali, suggerendo che l'allineamento visivo potrebbe ostacolare le capacità dei VLMs. Per affrontare questa sfida, proponiamo un nuovo approccio di addestramento esclusivamente testuale con dati testuali sintetizzati. Questo metodo rafforza i componenti linguistici dei VLMs e trasferisce le abilità apprese all'inferenza multimodale, eliminando la necessità di costosi dati accoppiati immagine-testo. Inoltre, dimostriamo che i VLMs possono ottenere significativi miglioramenti delle prestazioni attraverso l'auto-miglioramento, utilizzando dati di addestramento generati dalle loro controparti LLM piuttosto che affidarsi a modelli insegnanti più grandi come GPT-4. I nostri risultati stabiliscono un approccio più efficiente e scalabile per migliorare le capacità di decisione centrata sull'uomo dei VLMs, aprendo nuove strade per ottimizzare i VLMs attraverso meccanismi di auto-miglioramento.

English

Embodied decision-making is fundamental for AI agents operating in real-world environments. While Visual Language Models (VLMs) have advanced this capability, they still struggle with complex decisions, particularly in human-centered situations that require deep reasoning about human needs and values. In this study, we systematically evaluate open-sourced VLMs on multimodal human-centered decision-making tasks. We find that LLMs receiving only textual descriptions unexpectedly outperform their VLM counterparts of similar scale that process actual images, suggesting that visual alignment may hinder VLM abilities. To address this challenge, we propose a novel text-only training approach with synthesized textual data. This method strengthens VLMs' language components and transfers the learned abilities to multimodal inference, eliminating the need for expensive image-text paired data. Furthermore, we show that VLMs can achieve substantial performance gains through self-improvement, using training data generated by their LLM counterparts rather than relying on larger teacher models like GPT-4. Our findings establish a more efficient and scalable approach to enhancing VLMs' human-centered decision-making capabilities, opening new avenues for optimizing VLMs through self-improvement mechanisms.

Quando le Parole Superano la Visione: i Modelli Linguistico-Visuali Possono Migliorarsi Attraverso l'Addestramento su Solo Testo per Decisioni Centrate sull'Uomo

When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

Abstract

Summary

Support

Support