ChatPaper.aiChatPaper

시간 속에서 길을 잃다: 다중 모달 LLMs에서의 시계 및 달력 이해 도전들

Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

February 7, 2025
저자: Rohit Saxena, Aryo Pradipta Gema, Pasquale Minervini
cs.AI

초록

시각적 표현으로부터 시간을 이해하는 것은 기본적인 인지 능력이지만, 다중 모달 대형 언어 모델(MLLMs)에 대한 도전 과제로 남아 있습니다. 본 연구에서는 아날로그 시계와 연간 달력을 통해 MLLMs의 시간 및 날짜 해석 능력을 조사합니다. 이를 위해 시계 스타일(표준, 검은 다이얼, 초침 없음, 로마 숫자, 화살표 손시계)과 시간 관련 질문이 짝을 이룬 ClockQA 및 연간 달력 이미지와 크리스마스, 신정 등과 같은 일반적으로 알려진 날짜부터 연산으로 유도된 100일째 또는 153일째와 같은 질문이 포함된 CalendarQA로 구성된 구조화된 데이터셋을 만들었습니다. MLLMs가 시간 관련 시각 데이터를 제시받았을 때 시각적 인식, 숫자 추론 및 시간 추론을 어떻게 수행할 수 있는지 분석하고자 합니다. 우리의 평가 결과, 최근의 발전에도 불구하고, 시간을 신뢰성 있게 이해하는 것은 MLLMs에게 여전히 중요한 도전 과제임을 보여줍니다.
English
Understanding time from visual representations is a fundamental cognitive skill, yet it remains a challenge for multimodal large language models (MLLMs). In this work, we investigate the capabilities of MLLMs in interpreting time and date through analogue clocks and yearly calendars. To facilitate this, we curated a structured dataset comprising two subsets: 1) ClockQA, which comprises various types of clock styles-standard, black-dial, no-second-hand, Roman numeral, and arrow-hand clocks-paired with time related questions; and 2) CalendarQA, which consists of yearly calendar images with questions ranging from commonly known dates (e.g., Christmas, New Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of the year). We aim to analyse how MLLMs can perform visual recognition, numerical reasoning, and temporal inference when presented with time-related visual data. Our evaluations show that despite recent advancements, reliably understanding time remains a significant challenge for MLLMs.

Summary

AI-Generated Summary

PDF74February 10, 2025