ChatPaper.aiChatPaper

느린 지각: 기하학적 도형을 단계별로 인식합시다.

Slow Perception: Let's Perceive Geometric Figures Step-by-step

December 30, 2024
저자: Haoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang
cs.AI

초록

최근에 "시각 o1"이 사람들의 시야에 들어오기 시작했으며, 이는 느린 사고 디자인이 시각 추론 작업, 특히 기하학적 수학 문제를 해결할 수 있다는 기대와 함께입니다. 그러나 현재의 대형 시각 언어 모델(LVLMs)은 심지어 기하학적 도형을 정확하게 복사하는 데도 어려움을 겪고 있으며, 기하학적 모양 내 복잡한 내재 논리와 공간적 관계를 실제로 이해하지 못합니다. 우리는 정확한 복사(강한 지각)가 시각 o1로 가는 첫걸음이라고 믿습니다. 따라서 우리는 모델이 기하학적 구조를 점진적으로 재구성하는 우리 인간들과 같은 "느린 지각"(SP) 개념을 소개합니다. SP에는 두 가지 단계가 있습니다: a) 지각 분해. 지각은 즉각적이지 않습니다. 이 단계에서 복잡한 기하학적 도형이 기하학 표현을 통일하기 위해 기본 단순 단위로 분해됩니다. b) 지각 흐름. 선을 정확하게 추적하는 것이 쉬운 작업이 아님을 인정합니다. 이 단계는 각 선을 한 줄씩 추적하기 위해 제안된 "지각적 자"를 사용하여 선분을 회귀할 때 "긴 시각적 점프"를 피하려고 합니다. 놀랍게도, 이러한 인간과 같은 지각 방식은 추론 시간 척도 법칙을 즐깁니다 - 느릴수록 더 나아집니다. 연구자들은 과거에 모델의 지각 속도를 높이려고 노력했지만, 우리는 모델이 이미지를 단계별로 주의 깊게 읽도록 하기 위해 다시 속도를 줄이고 있습니다.
English
Recently, "visual o1" began to enter people's vision, with expectations that this slow-thinking design can solve visual reasoning tasks, especially geometric math problems. However, the reality is that current LVLMs (Large Vision Language Models) can hardly even accurately copy a geometric figure, let alone truly understand the complex inherent logic and spatial relationships within geometric shapes. We believe accurate copying (strong perception) is the first step to visual o1. Accordingly, we introduce the concept of "slow perception" (SP), which guides the model to gradually perceive basic point-line combinations, as our humans, reconstruct complex geometric structures progressively. There are two-fold stages in SP: a) perception decomposition. Perception is not instantaneous. In this stage, complex geometric figures are broken down into basic simple units to unify geometry representation. b) perception flow, which acknowledges that accurately tracing a line is not an easy task. This stage aims to avoid "long visual jumps" in regressing line segments by using a proposed "perceptual ruler" to trace each line stroke-by-stroke. Surprisingly, such a human-like perception manner enjoys an inference time scaling law -- the slower, the better. Researchers strive to speed up the model's perception in the past, but we slow it down again, allowing the model to read the image step-by-step and carefully.

Summary

AI-Generated Summary

PDF152December 31, 2024