RONA: Generazione di Didascalie Immagini Pragmaticamente Diversificate con Relazioni di Coerenza
RONA: Pragmatically Diverse Image Captioning with Coherence Relations
March 14, 2025
Autori: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee
cs.AI
Abstract
Gli assistenti di scrittura (ad esempio, Grammarly, Microsoft Copilot) tradizionalmente generano didascalie per immagini diverse impiegando variazioni sintattiche e semantiche per descrivere i componenti dell'immagine. Tuttavia, le didascalie scritte da esseri umani privilegiano la trasmissione di un messaggio centrale insieme a descrizioni visive utilizzando indizi pragmatici. Per migliorare la diversità pragmatica, è essenziale esplorare modalità alternative di comunicare questi messaggi in congiunzione con il contenuto visivo. Per affrontare questa sfida, proponiamo RONA, una nuova strategia di prompt per Modelli Linguistici Multimodali di Grande Scala (MLLM) che sfrutta le Relazioni di Coerenza come asse di variazione. Dimostriamo che RONA genera didascalie con una migliore diversità complessiva e allineamento con la verità di riferimento, rispetto ai modelli MLLM di base in più domini. Il nostro codice è disponibile all'indirizzo: https://github.com/aashish2000/RONA
English
Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally
generate diverse image captions by employing syntactic and semantic variations
to describe image components. However, human-written captions prioritize
conveying a central message alongside visual descriptions using pragmatic cues.
To enhance pragmatic diversity, it is essential to explore alternative ways of
communicating these messages in conjunction with visual content. To address
this challenge, we propose RONA, a novel prompting strategy for Multi-modal
Large Language Models (MLLM) that leverages Coherence Relations as an axis for
variation. We demonstrate that RONA generates captions with better overall
diversity and ground-truth alignment, compared to MLLM baselines across
multiple domains. Our code is available at: https://github.com/aashish2000/RONASummary
AI-Generated Summary