ChatPaper.aiChatPaper

비전과 언어에서 빠진 퍼즐: 만화에 대한 조사

One missing piece in Vision and Language: A Survey on Comics Understanding

September 14, 2024
저자: Emanuele Vivoli, Andrey Barsky, Mohamed Ali Souibgui, Artemis LLabres, Marco Bertini, Dimosthenis Karatzas
cs.AI

초록

비전-언어 모델은 최근 다양한 작업에서 뛰어난 성능을 발휘할 수 있는 다재다능한 시스템으로 진화했습니다. 이러한 작업에는 문서 이해, 시각적 질문 응답, 그리고 grounding 등이 포함되며, 이러한 작업들은 종종 제로샷 설정에서 이루어집니다. 복합적이고 다면적인 분야인 만화 이해는 이러한 발전으로 크게 이익을 얻을 수 있습니다. 매체로서의 만화는 풍부한 시각적 및 텍스트적 서술을 결합하여 이미지 분류, 물체 탐지, 인스턴스 분할, 그리고 순차적 패널을 통한 보다 심층적인 서술 이해와 같은 작업들로 AI 모델에 도전을 제공합니다. 그러나 만화의 독특한 구조는 창의적인 스타일, 읽는 순서, 비선형 서술 등의 차이로 인해 다른 시각-언어 도메인과는 다른 일련의 도전 과제를 제시합니다. 본 조사에서는 데이터셋 및 작업 관점에서 만화 이해에 대한 포괄적인 검토를 제시합니다. 우리의 기여는 다섯 가지로 구성됩니다: (1) 만화 매체의 구조를 분석하여 독특한 구성 요소를 상세히 설명합니다; (2) 만화 연구에서 널리 사용되는 데이터셋과 작업을 조사하며, 이들이 분야 발전에 어떻게 기여하는지 강조합니다; (3) 만화 이해의 층(Layer of Comics Understanding, LoCU) 프레임워크를 소개하여, 이를 통해 만화 내에서 비전-언어 작업을 재정의하고 향후 작업의 기초를 마련합니다; (4) LoCU 프레임워크를 따라 기존 방법들을 상세히 검토하고 분류합니다; (5) 마지막으로 현재의 연구 도전 과제를 강조하고, 특히 만화에 적용된 비전-언어 모델의 맥락에서 미래 탐구 방향을 제안합니다. 이 조사는 만화 지능을 위한 작업 중심 프레임워크를 제안한 최초의 조사로, 데이터 이용 가능성과 작업 정의의 중요한 공백을 다루어 향후 연구를 안내하고자 합니다. 이 조사와 관련된 프로젝트는 https://github.com/emanuelevivoli/awesome-comics-understanding에서 확인할 수 있습니다.
English
Vision-language models have recently evolved into versatile systems capable of high performance across a range of tasks, such as document understanding, visual question answering, and grounding, often in zero-shot settings. Comics Understanding, a complex and multifaceted field, stands to greatly benefit from these advances. Comics, as a medium, combine rich visual and textual narratives, challenging AI models with tasks that span image classification, object detection, instance segmentation, and deeper narrative comprehension through sequential panels. However, the unique structure of comics -- characterized by creative variations in style, reading order, and non-linear storytelling -- presents a set of challenges distinct from those in other visual-language domains. In this survey, we present a comprehensive review of Comics Understanding from both dataset and task perspectives. Our contributions are fivefold: (1) We analyze the structure of the comics medium, detailing its distinctive compositional elements; (2) We survey the widely used datasets and tasks in comics research, emphasizing their role in advancing the field; (3) We introduce the Layer of Comics Understanding (LoCU) framework, a novel taxonomy that redefines vision-language tasks within comics and lays the foundation for future work; (4) We provide a detailed review and categorization of existing methods following the LoCU framework; (5) Finally, we highlight current research challenges and propose directions for future exploration, particularly in the context of vision-language models applied to comics. This survey is the first to propose a task-oriented framework for comics intelligence and aims to guide future research by addressing critical gaps in data availability and task definition. A project associated with this survey is available at https://github.com/emanuelevivoli/awesome-comics-understanding.

Summary

AI-Generated Summary

PDF262November 16, 2024