ChatPaper.aiChatPaper

YesBut: 시각-언어 모델의 풍자 이해 능력을 평가하기 위한 고품질 주석이 달린 다중 모달 데이터셋

YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models

September 20, 2024
저자: Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly
cs.AI

초록

풍자와 유머를 이해하는 것은 현재의 시각-언어 모델에게도 어려운 과제입니다. 본 논문에서는 도전적인 작업으로 풍자 이미지 감지(이미지가 풍자적인지 감지), 이해(이미지가 풍자적인 이유 생성), 그리고 완성(이미지의 절반을 제공받아 주어진 2개 옵션 중 하나를 선택하여 완전한 이미지가 풍자적이 되도록 하는 작업)을 제안하고, 이러한 작업들을 평가하기 위해 서로 다른 예술적 스타일을 담은 1084개의 풍자적 이미지와 1463개의 비풍자적 이미지로 이루어진 고품질 데이터셋인 YesBut를 공개합니다. 데이터셋의 각 풍자적 이미지는 일반적인 시나리오와 웃기거나 아이러니한 대립 시나리오를 묘사합니다. 현재의 시각-언어 모델이 시각적 질의응답과 이미지 캡션 작업과 같은 다중 모달 작업에서 성공을 거두었지만, 우리의 벤치마킹 실험 결과, 이러한 모델이 Zero-Shot 설정에서 YesBut 데이터셋의 제안된 작업에 대해 자동화 및 인간 평가 모두에서 성능이 저조함을 보여줍니다. 추가로, 더 많은 연구를 위해 119개의 실제 풍자 사진 데이터셋을 공개합니다. 데이터셋과 코드는 https://github.com/abhi1nandy2/yesbut_dataset에서 확인할 수 있습니다.
English
Understanding satire and humor is a challenging task for even current Vision-Language models. In this paper, we propose the challenging tasks of Satirical Image Detection (detecting whether an image is satirical), Understanding (generating the reason behind the image being satirical), and Completion (given one half of the image, selecting the other half from 2 given options, such that the complete image is satirical) and release a high-quality dataset YesBut, consisting of 2547 images, 1084 satirical and 1463 non-satirical, containing different artistic styles, to evaluate those tasks. Each satirical image in the dataset depicts a normal scenario, along with a conflicting scenario which is funny or ironic. Despite the success of current Vision-Language Models on multimodal tasks such as Visual QA and Image Captioning, our benchmarking experiments show that such models perform poorly on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both automated as well as human evaluation. Additionally, we release a dataset of 119 real, satirical photographs for further research. The dataset and code are available at https://github.com/abhi1nandy2/yesbut_dataset.

Summary

AI-Generated Summary

PDF529November 16, 2024