ChatPaper.aiChatPaper

RONA: Pragmatisch vielfältige Bildbeschreibung mit Kohärenzrelationen

RONA: Pragmatically Diverse Image Captioning with Coherence Relations

March 14, 2025
Autoren: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee
cs.AI

Zusammenfassung

Schreibassistenten (z. B. Grammarly, Microsoft Copilot) erzeugen traditionell vielfältige Bildbeschreibungen, indem sie syntaktische und semantische Variationen verwenden, um Bildkomponenten zu beschreiben. Menschlich verfasste Bildunterschriften priorisieren jedoch die Vermittlung einer zentralen Botschaft neben visuellen Beschreibungen unter Verwendung pragmatischer Hinweise. Um die pragmatische Vielfalt zu verbessern, ist es entscheidend, alternative Wege zu erforschen, diese Botschaften in Verbindung mit visuellen Inhalten zu kommunizieren. Um diese Herausforderung zu bewältigen, schlagen wir RONA vor, eine neuartige Prompting-Strategie für Multimodale Große Sprachmodelle (MLLM), die Kohärenzrelationen als Variationsachse nutzt. Wir zeigen, dass RONA Bildunterschriften mit besserer Gesamtvielfalt und Übereinstimmung mit der Grundwahrheit erzeugt, verglichen mit MLLM-Baselines über mehrere Domänen hinweg. Unser Code ist verfügbar unter: https://github.com/aashish2000/RONA
English
Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally generate diverse image captions by employing syntactic and semantic variations to describe image components. However, human-written captions prioritize conveying a central message alongside visual descriptions using pragmatic cues. To enhance pragmatic diversity, it is essential to explore alternative ways of communicating these messages in conjunction with visual content. To address this challenge, we propose RONA, a novel prompting strategy for Multi-modal Large Language Models (MLLM) that leverages Coherence Relations as an axis for variation. We demonstrate that RONA generates captions with better overall diversity and ground-truth alignment, compared to MLLM baselines across multiple domains. Our code is available at: https://github.com/aashish2000/RONA

Summary

AI-Generated Summary

PDF12March 27, 2025