CAD-MLLM: Unificazione della generazione di CAD condizionata dalla multimodalità con MLLM
CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
November 7, 2024
Autori: Jingwei Xu, Chenyu Wang, Zibo Zhao, Wen Liu, Yi Ma, Shenghua Gao
cs.AI
Abstract
Questo articolo mira a progettare un sistema unificato di generazione del Disegno Assistito al Computer (CAD) che possa generare facilmente modelli CAD basati sugli input dell'utente sotto forma di descrizioni testuali, immagini, nuvole di punti o anche una combinazione di essi. Per raggiungere questo obiettivo, presentiamo il CAD-MLLM, il primo sistema in grado di generare modelli CAD parametrici condizionati all'input multimodale. Nello specifico, all'interno del framework CAD-MLLM, sfruttiamo le sequenze di comandi dei modelli CAD e poi utilizziamo avanzati modelli linguistici di grandi dimensioni (LLM) per allineare lo spazio delle caratteristiche tra questi diversi dati multimodali e le rappresentazioni vettoriali dei modelli CAD. Per facilitare l'addestramento del modello, progettiamo un completo processo di costruzione dei dati e annotazione che equipaggia ciascun modello CAD con dati multimodali corrispondenti. Il nostro dataset risultante, chiamato Omni-CAD, è il primo dataset CAD multimodale che contiene descrizioni testuali, immagini multi-view, punti e sequenze di comandi per ciascun modello CAD. Contiene circa 450.000 istanze e le relative sequenze di costruzione CAD. Per valutare approfonditamente la qualità dei nostri modelli CAD generati, superiamo le attuali metriche di valutazione che si concentrano sulla qualità della ricostruzione introducendo ulteriori metriche che valutano la qualità della topologia e l'estensione dell'inclusione superficiale. Estesi risultati sperimentali dimostrano che il CAD-MLLM supera significativamente i metodi generativi condizionati esistenti e rimane altamente robusto ai rumori e ai punti mancanti. La pagina del progetto e ulteriori visualizzazioni sono disponibili su: https://cad-mllm.github.io/
English
This paper aims to design a unified Computer-Aided Design (CAD) generation
system that can easily generate CAD models based on the user's inputs in the
form of textual description, images, point clouds, or even a combination of
them. Towards this goal, we introduce the CAD-MLLM, the first system capable of
generating parametric CAD models conditioned on the multimodal input.
Specifically, within the CAD-MLLM framework, we leverage the command sequences
of CAD models and then employ advanced large language models (LLMs) to align
the feature space across these diverse multi-modalities data and CAD models'
vectorized representations. To facilitate the model training, we design a
comprehensive data construction and annotation pipeline that equips each CAD
model with corresponding multimodal data. Our resulting dataset, named
Omni-CAD, is the first multimodal CAD dataset that contains textual
description, multi-view images, points, and command sequence for each CAD
model. It contains approximately 450K instances and their CAD construction
sequences. To thoroughly evaluate the quality of our generated CAD models, we
go beyond current evaluation metrics that focus on reconstruction quality by
introducing additional metrics that assess topology quality and surface
enclosure extent. Extensive experimental results demonstrate that CAD-MLLM
significantly outperforms existing conditional generative methods and remains
highly robust to noises and missing points. The project page and more
visualizations can be found at: https://cad-mllm.github.io/Summary
AI-Generated Summary