GeoX: Risoluzione dei problemi geometrici attraverso il pre-addestramento unificato formalizzato della visione e del linguaggio.

Abstract

Nonostante la loro competenza in compiti generali, i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) faticano con la Risoluzione Automatica dei Problemi Geometrici (GPS), che richiede la comprensione dei diagrammi, l'interpretazione dei simboli e l'esecuzione di ragionamenti complessi. Questa limitazione deriva dal loro pre-addestramento su immagini e testi naturali, insieme alla mancanza di verifica automatica nel processo di risoluzione dei problemi. Inoltre, gli attuali specialisti geometrici sono limitati dai loro design specifici per compiti, rendendoli meno efficaci per problemi geometrici più ampi. A questo scopo, presentiamo GeoX, un grande modello multimodale focalizzato sulla comprensione geometrica e sui compiti di ragionamento. Date le significative differenze tra diagrammi e simboli geometrici e immagini e testi naturali, introduciamo un pre-addestramento unimodale per sviluppare un codificatore di diagrammi e un decodificatore di simboli, migliorando la comprensione delle immagini e dei corpora geometrici. Inoltre, introduciamo l'allineamento geometria-linguaggio, un efficace paradigma di pre-addestramento che colma il divario di modalità tra esperti geometrici unimodali. Proponiamo un Generatore-E-Campionatore Transformer (GS-Former) per generare query discriminanti ed eliminare rappresentazioni non informative da segnali geometrici distribuiti in modo disomogeneo. Infine, GeoX beneficia del sintonizzazione dell'istruzione visiva, permettendogli di prendere immagini e domande geometriche in input e generare soluzioni verificabili. Gli esperimenti mostrano che GeoX supera sia i generalisti che gli specialisti geometrici su benchmark riconosciuti pubblicamente, come GeoQA, UniGeo, Geometry3K e PGPS9k.

English

Despite their proficiency in general tasks, Multi-modal Large Language Models (MLLMs) struggle with automatic Geometry Problem Solving (GPS), which demands understanding diagrams, interpreting symbols, and performing complex reasoning. This limitation arises from their pre-training on natural images and texts, along with the lack of automated verification in the problem-solving process. Besides, current geometric specialists are limited by their task-specific designs, making them less effective for broader geometric problems. To this end, we present GeoX, a multi-modal large model focusing on geometric understanding and reasoning tasks. Given the significant differences between geometric diagram-symbol and natural image-text, we introduce unimodal pre-training to develop a diagram encoder and symbol decoder, enhancing the understanding of geometric images and corpora. Furthermore, we introduce geometry-language alignment, an effective pre-training paradigm that bridges the modality gap between unimodal geometric experts. We propose a Generator-And-Sampler Transformer (GS-Former) to generate discriminative queries and eliminate uninformative representations from unevenly distributed geometric signals. Finally, GeoX benefits from visual instruction tuning, empowering it to take geometric images and questions as input and generate verifiable solutions. Experiments show that GeoX outperforms both generalists and geometric specialists on publicly recognized benchmarks, such as GeoQA, UniGeo, Geometry3K, and PGPS9k.

GeoX: Risoluzione dei problemi geometrici attraverso il pre-addestramento unificato formalizzato della visione e del linguaggio.

GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

Abstract

Support