GeoX: Risoluzione dei problemi geometrici attraverso il pre-addestramento unificato formalizzato della visione e del linguaggio.
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training
December 16, 2024
Autori: Renqiu Xia, Mingsheng Li, Hancheng Ye, Wenjie Wu, Hongbin Zhou, Jiakang Yuan, Tianshuo Peng, Xinyu Cai, Xiangchao Yan, Bin Wang, Conghui He, Botian Shi, Tao Chen, Junchi Yan, Bo Zhang
cs.AI
Abstract
Nonostante la loro competenza in compiti generali, i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) faticano con la Risoluzione Automatica dei Problemi Geometrici (GPS), che richiede la comprensione dei diagrammi, l'interpretazione dei simboli e l'esecuzione di ragionamenti complessi. Questa limitazione deriva dal loro pre-addestramento su immagini e testi naturali, insieme alla mancanza di verifica automatica nel processo di risoluzione dei problemi. Inoltre, gli attuali specialisti geometrici sono limitati dai loro design specifici per compiti, rendendoli meno efficaci per problemi geometrici più ampi. A questo scopo, presentiamo GeoX, un grande modello multimodale focalizzato sulla comprensione geometrica e sui compiti di ragionamento. Date le significative differenze tra diagrammi e simboli geometrici e immagini e testi naturali, introduciamo un pre-addestramento unimodale per sviluppare un codificatore di diagrammi e un decodificatore di simboli, migliorando la comprensione delle immagini e dei corpora geometrici. Inoltre, introduciamo l'allineamento geometria-linguaggio, un efficace paradigma di pre-addestramento che colma il divario di modalità tra esperti geometrici unimodali. Proponiamo un Generatore-E-Campionatore Transformer (GS-Former) per generare query discriminanti ed eliminare rappresentazioni non informative da segnali geometrici distribuiti in modo disomogeneo. Infine, GeoX beneficia del sintonizzazione dell'istruzione visiva, permettendogli di prendere immagini e domande geometriche in input e generare soluzioni verificabili. Gli esperimenti mostrano che GeoX supera sia i generalisti che gli specialisti geometrici su benchmark riconosciuti pubblicamente, come GeoQA, UniGeo, Geometry3K e PGPS9k.
English
Despite their proficiency in general tasks, Multi-modal Large Language Models
(MLLMs) struggle with automatic Geometry Problem Solving (GPS), which demands
understanding diagrams, interpreting symbols, and performing complex reasoning.
This limitation arises from their pre-training on natural images and texts,
along with the lack of automated verification in the problem-solving process.
Besides, current geometric specialists are limited by their task-specific
designs, making them less effective for broader geometric problems. To this
end, we present GeoX, a multi-modal large model focusing on geometric
understanding and reasoning tasks. Given the significant differences between
geometric diagram-symbol and natural image-text, we introduce unimodal
pre-training to develop a diagram encoder and symbol decoder, enhancing the
understanding of geometric images and corpora. Furthermore, we introduce
geometry-language alignment, an effective pre-training paradigm that bridges
the modality gap between unimodal geometric experts. We propose a
Generator-And-Sampler Transformer (GS-Former) to generate discriminative
queries and eliminate uninformative representations from unevenly distributed
geometric signals. Finally, GeoX benefits from visual instruction tuning,
empowering it to take geometric images and questions as input and generate
verifiable solutions. Experiments show that GeoX outperforms both generalists
and geometric specialists on publicly recognized benchmarks, such as GeoQA,
UniGeo, Geometry3K, and PGPS9k.Summary
AI-Generated Summary