ChatPaper.aiChatPaper

RONA: Generazione di Didascalie Immagini Pragmaticamente Diversificate con Relazioni di Coerenza

RONA: Pragmatically Diverse Image Captioning with Coherence Relations

March 14, 2025
Autori: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee
cs.AI

Abstract

Gli assistenti di scrittura (ad esempio, Grammarly, Microsoft Copilot) tradizionalmente generano didascalie per immagini diverse impiegando variazioni sintattiche e semantiche per descrivere i componenti dell'immagine. Tuttavia, le didascalie scritte da esseri umani privilegiano la trasmissione di un messaggio centrale insieme a descrizioni visive utilizzando indizi pragmatici. Per migliorare la diversità pragmatica, è essenziale esplorare modalità alternative di comunicare questi messaggi in congiunzione con il contenuto visivo. Per affrontare questa sfida, proponiamo RONA, una nuova strategia di prompt per Modelli Linguistici Multimodali di Grande Scala (MLLM) che sfrutta le Relazioni di Coerenza come asse di variazione. Dimostriamo che RONA genera didascalie con una migliore diversità complessiva e allineamento con la verità di riferimento, rispetto ai modelli MLLM di base in più domini. Il nostro codice è disponibile all'indirizzo: https://github.com/aashish2000/RONA
English
Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally generate diverse image captions by employing syntactic and semantic variations to describe image components. However, human-written captions prioritize conveying a central message alongside visual descriptions using pragmatic cues. To enhance pragmatic diversity, it is essential to explore alternative ways of communicating these messages in conjunction with visual content. To address this challenge, we propose RONA, a novel prompting strategy for Multi-modal Large Language Models (MLLM) that leverages Coherence Relations as an axis for variation. We demonstrate that RONA generates captions with better overall diversity and ground-truth alignment, compared to MLLM baselines across multiple domains. Our code is available at: https://github.com/aashish2000/RONA

Summary

AI-Generated Summary

PDF12March 27, 2025