ChatPaper.aiChatPaper

NL-Eye: 이미지를 위한 추론 기반 자연어 이해력

NL-Eye: Abductive NLI for Images

October 3, 2024
저자: Mor Ventura, Michael Toker, Nitay Calderon, Zorik Gekhman, Yonatan Bitton, Roi Reichart
cs.AI

초록

시각 언어 모델(VLM) 기반 봇이 젖은 바닥을 감지하면 미끄러짐을 경고해 줄까요? 최근 VLM은 놀라운 성능을 보여주었지만 결과와 원인을 추론하는 능력은 아직 충분히 탐구되지 않았습니다. 이를 해결하기 위해 우리는 시각적 타당 추론 능력을 평가하기 위해 고안된 벤치마크인 NL-Eye를 소개합니다. NL-Eye는 시각 도메인에 추론적 자연어 추론(NLI) 과제를 적용하여, 모델이 전제 이미지를 기반으로 가설 이미지의 타당성을 평가하고 그 결정을 설명해야 하는 과제를 포함합니다. NL-Eye는 물리적, 기능적, 논리적, 감정적, 문화적, 사회적 등 다양한 추론 범주를 포괄하는 350개의 신중히 선별된 삼중 예제(1,050개의 이미지)로 구성되어 있습니다. 데이터 선별 과정은 텍스트 설명 작성과 텍스트-이미지 모델을 사용하여 이미지 생성 두 단계로 이루어져 있으며, 높은 품질과 도전적인 장면을 보장하기 위해 상당한 인간 참여가 필요했습니다. 우리의 실험 결과는 VLM이 NL-Eye에서 심각하게 어려움을 겪는다는 것을 보여주었습니다. 종종 무작위 기준선 수준에서 수행하며, 반면 인간은 타당성 예측과 설명 품질 모두에서 뛰어납니다. 이는 현대 VLM의 추론 능력에 결핍이 있다는 것을 보여줍니다. NL-Eye는 사고 예방 봇 및 생성된 비디오 확인을 포함한 실제 응용 프로그램을 위한 견고한 다중 모달 추론 능력을 갖춘 VLM을 개발하기 위한 중요한 한 걸음을 나타냅니다.
English
Will a Visual Language Model (VLM)-based bot warn us about slipping if it detects a wet floor? Recent VLMs have demonstrated impressive capabilities, yet their ability to infer outcomes and causes remains underexplored. To address this, we introduce NL-Eye, a benchmark designed to assess VLMs' visual abductive reasoning skills. NL-Eye adapts the abductive Natural Language Inference (NLI) task to the visual domain, requiring models to evaluate the plausibility of hypothesis images based on a premise image and explain their decisions. NL-Eye consists of 350 carefully curated triplet examples (1,050 images) spanning diverse reasoning categories: physical, functional, logical, emotional, cultural, and social. The data curation process involved two steps - writing textual descriptions and generating images using text-to-image models, both requiring substantial human involvement to ensure high-quality and challenging scenes. Our experiments show that VLMs struggle significantly on NL-Eye, often performing at random baseline levels, while humans excel in both plausibility prediction and explanation quality. This demonstrates a deficiency in the abductive reasoning capabilities of modern VLMs. NL-Eye represents a crucial step toward developing VLMs capable of robust multimodal reasoning for real-world applications, including accident-prevention bots and generated video verification.

Summary

AI-Generated Summary

PDF232November 16, 2024