CAD-MLLM : Unification de la génération de CAD conditionnée par la multimodalité avec MLLM
CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
November 7, 2024
Auteurs: Jingwei Xu, Chenyu Wang, Zibo Zhao, Wen Liu, Yi Ma, Shenghua Gao
cs.AI
Résumé
Cet article vise à concevoir un système unifié de génération de Conception Assistée par Ordinateur (CAO) capable de générer facilement des modèles CAO basés sur les entrées de l'utilisateur sous forme de descriptions textuelles, d'images, de nuages de points, voire d'une combinaison de ces éléments. Dans cette optique, nous présentons le CAD-MLLM, le premier système capable de générer des modèles CAO paramétriques conditionnés par l'entrée multimodale. Plus précisément, au sein du cadre du CAD-MLLM, nous exploitons les séquences de commandes des modèles CAO, puis utilisons des modèles de langage large avancés (LLM) pour aligner l'espace des caractéristiques à travers ces données multimodales diverses et les représentations vectorisées des modèles CAO. Pour faciliter l'entraînement du modèle, nous concevons un pipeline complet de construction de données et d'annotation qui dote chaque modèle CAO de données multimodales correspondantes. Notre ensemble de données résultant, nommé Omni-CAD, est le premier ensemble de données CAO multimodal contenant des descriptions textuelles, des images multi-vues, des points et des séquences de commandes pour chaque modèle CAO. Il contient environ 450 000 instances et leurs séquences de construction CAO. Pour évaluer rigoureusement la qualité de nos modèles CAO générés, nous allons au-delà des métriques d'évaluation actuelles qui se concentrent sur la qualité de la reconstruction en introduisant des métriques supplémentaires qui évaluent la qualité de la topologie et l'étendue de l'enclosure de surface. Des résultats expérimentaux approfondis démontrent que le CAD-MLLM surpasse significativement les méthodes génératives conditionnelles existantes et reste très robuste aux bruits et aux points manquants. La page du projet et davantage de visualisations sont disponibles sur : https://cad-mllm.github.io/
English
This paper aims to design a unified Computer-Aided Design (CAD) generation
system that can easily generate CAD models based on the user's inputs in the
form of textual description, images, point clouds, or even a combination of
them. Towards this goal, we introduce the CAD-MLLM, the first system capable of
generating parametric CAD models conditioned on the multimodal input.
Specifically, within the CAD-MLLM framework, we leverage the command sequences
of CAD models and then employ advanced large language models (LLMs) to align
the feature space across these diverse multi-modalities data and CAD models'
vectorized representations. To facilitate the model training, we design a
comprehensive data construction and annotation pipeline that equips each CAD
model with corresponding multimodal data. Our resulting dataset, named
Omni-CAD, is the first multimodal CAD dataset that contains textual
description, multi-view images, points, and command sequence for each CAD
model. It contains approximately 450K instances and their CAD construction
sequences. To thoroughly evaluate the quality of our generated CAD models, we
go beyond current evaluation metrics that focus on reconstruction quality by
introducing additional metrics that assess topology quality and surface
enclosure extent. Extensive experimental results demonstrate that CAD-MLLM
significantly outperforms existing conditional generative methods and remains
highly robust to noises and missing points. The project page and more
visualizations can be found at: https://cad-mllm.github.io/Summary
AI-Generated Summary