遅い知覚:幾何学図形を段階的に知覚しましょう
Slow Perception: Let's Perceive Geometric Figures Step-by-step
December 30, 2024
著者: Haoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang
cs.AI
要旨
最近、「視覚 o1」が人々の視界に入り始め、このゆっくりとした思考設計が視覚推論タスク、特に幾何学的数学問題を解決できるという期待が高まっています。しかし、現在の大規模ビジョン言語モデル(LVLMs)は、幾何学的図形を正確にコピーすることさえ難しく、さらには幾何学的形状内の複雑な固有ロジックや空間関係を本当に理解することはほとんどありません。私たちは、正確なコピー(強い知覚)が視覚 o1への第一歩であると考えています。そのため、私たちは「遅い知覚」(SP)という概念を導入し、モデルが基本的な点線の組み合わせを徐々に知覚し、私たち人間が複雑な幾何学的構造を段階的に再構築するように導きます。SPには二つの段階があります。a) 知覚分解。知覚は瞬時ではありません。この段階では、複雑な幾何学図形が基本的な単純な単位に分解され、幾何学表現が統一されます。b) 知覚フロー。線を正確に追跡することは簡単なことではないことを認識します。この段階では、提案された「知覚尺」を使用して、線を一筆ずつ追跡することで、線分の回帰における「長い視覚的ジャンプ」を避けることを目指します。驚くべきことに、このような人間らしい知覚方法は推論時間のスケーリング法則を享受しています。遅いほど良いのです。研究者たちは過去にモデルの知覚を加速しようと努力してきましたが、私たちは再びそれを遅くし、モデルが画像をステップバイステップかつ注意深く読むことを可能にしています。
English
Recently, "visual o1" began to enter people's vision, with expectations that
this slow-thinking design can solve visual reasoning tasks, especially
geometric math problems. However, the reality is that current LVLMs (Large
Vision Language Models) can hardly even accurately copy a geometric figure, let
alone truly understand the complex inherent logic and spatial relationships
within geometric shapes. We believe accurate copying (strong perception) is the
first step to visual o1. Accordingly, we introduce the concept of "slow
perception" (SP), which guides the model to gradually perceive basic point-line
combinations, as our humans, reconstruct complex geometric structures
progressively. There are two-fold stages in SP: a) perception decomposition.
Perception is not instantaneous. In this stage, complex geometric figures are
broken down into basic simple units to unify geometry representation. b)
perception flow, which acknowledges that accurately tracing a line is not an
easy task. This stage aims to avoid "long visual jumps" in regressing line
segments by using a proposed "perceptual ruler" to trace each line
stroke-by-stroke. Surprisingly, such a human-like perception manner enjoys an
inference time scaling law -- the slower, the better. Researchers strive to
speed up the model's perception in the past, but we slow it down again,
allowing the model to read the image step-by-step and carefully.Summary
AI-Generated Summary