YesBut: 시각-언어 모델의 풍자 이해 능력을 평가하기 위한 고품질 주석이 달린 다중 모달 데이터셋
YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models
September 20, 2024
저자: Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly
cs.AI
초록
풍자와 유머를 이해하는 것은 현재의 시각-언어 모델에게도 어려운 과제입니다. 본 논문에서는 도전적인 작업으로 풍자 이미지 감지(이미지가 풍자적인지 감지), 이해(이미지가 풍자적인 이유 생성), 그리고 완성(이미지의 절반을 제공받아 주어진 2개 옵션 중 하나를 선택하여 완전한 이미지가 풍자적이 되도록 하는 작업)을 제안하고, 이러한 작업들을 평가하기 위해 서로 다른 예술적 스타일을 담은 1084개의 풍자적 이미지와 1463개의 비풍자적 이미지로 이루어진 고품질 데이터셋인 YesBut를 공개합니다. 데이터셋의 각 풍자적 이미지는 일반적인 시나리오와 웃기거나 아이러니한 대립 시나리오를 묘사합니다. 현재의 시각-언어 모델이 시각적 질의응답과 이미지 캡션 작업과 같은 다중 모달 작업에서 성공을 거두었지만, 우리의 벤치마킹 실험 결과, 이러한 모델이 Zero-Shot 설정에서 YesBut 데이터셋의 제안된 작업에 대해 자동화 및 인간 평가 모두에서 성능이 저조함을 보여줍니다. 추가로, 더 많은 연구를 위해 119개의 실제 풍자 사진 데이터셋을 공개합니다. 데이터셋과 코드는 https://github.com/abhi1nandy2/yesbut_dataset에서 확인할 수 있습니다.
English
Understanding satire and humor is a challenging task for even current
Vision-Language models. In this paper, we propose the challenging tasks of
Satirical Image Detection (detecting whether an image is satirical),
Understanding (generating the reason behind the image being satirical), and
Completion (given one half of the image, selecting the other half from 2 given
options, such that the complete image is satirical) and release a high-quality
dataset YesBut, consisting of 2547 images, 1084 satirical and 1463
non-satirical, containing different artistic styles, to evaluate those tasks.
Each satirical image in the dataset depicts a normal scenario, along with a
conflicting scenario which is funny or ironic. Despite the success of current
Vision-Language Models on multimodal tasks such as Visual QA and Image
Captioning, our benchmarking experiments show that such models perform poorly
on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both
automated as well as human evaluation. Additionally, we release a dataset of
119 real, satirical photographs for further research. The dataset and code are
available at https://github.com/abhi1nandy2/yesbut_dataset.Summary
AI-Generated Summary