ChatPaper.aiChatPaper

PosterSum: Мультимодальный бенчмарк для суммаризации научных постеров

PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

February 24, 2025
Авторы: Rohit Saxena, Pasquale Minervini, Frank Keller
cs.AI

Аннотация

Создание точных и лаконичных текстовых сводок из мультимодальных документов является сложной задачей, особенно при работе с визуально сложным контентом, таким как научные постеры. Мы представляем PosterSum — новый эталонный набор данных, призванный способствовать развитию моделей, способных понимать и обобщать научные постеры в виде аннотаций к исследовательским статьям. Наш набор данных включает 16 305 конференционных постеров, сопряженных с соответствующими аннотациями в качестве сводок. Каждый постер представлен в формате изображения и содержит разнообразные задачи для визуального анализа, такие как сложные макеты, плотные текстовые области, таблицы и графики. Мы тестируем современные мультимодальные языковые модели (MLLMs) на PosterSum и показываем, что они испытывают трудности с точной интерпретацией и обобщением научных постеров. Мы предлагаем метод Segment & Summarize, иерархический подход, который превосходит текущие MLLMs по автоматизированным метрикам, достигая улучшения на 3,14% по ROUGE-L. Это послужит отправной точкой для будущих исследований в области обобщения постеров.
English
Generating accurate and concise textual summaries from multimodal documents is challenging, especially when dealing with visually complex content like scientific posters. We introduce PosterSum, a novel benchmark to advance the development of vision-language models that can understand and summarize scientific posters into research paper abstracts. Our dataset contains 16,305 conference posters paired with their corresponding abstracts as summaries. Each poster is provided in image format and presents diverse visual understanding challenges, such as complex layouts, dense text regions, tables, and figures. We benchmark state-of-the-art Multimodal Large Language Models (MLLMs) on PosterSum and demonstrate that they struggle to accurately interpret and summarize scientific posters. We propose Segment & Summarize, a hierarchical method that outperforms current MLLMs on automated metrics, achieving a 3.14% gain in ROUGE-L. This will serve as a starting point for future research on poster summarization.

Summary

AI-Generated Summary

PDF22February 27, 2025