CAD-MLLM: Vereinigung der multimodalitätsbedingten CAD-Generierung mit MLLM
CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
November 7, 2024
Autoren: Jingwei Xu, Chenyu Wang, Zibo Zhao, Wen Liu, Yi Ma, Shenghua Gao
cs.AI
Zusammenfassung
Dieses Paper zielt darauf ab, ein vereinheitlichtes Computer-Aided Design (CAD) Generierungssystem zu entwerfen, das auf einfache Weise CAD-Modelle basierend auf den Benutzereingaben in Form von textueller Beschreibung, Bildern, Punktewolken oder sogar einer Kombination davon generieren kann. Zu diesem Zweck stellen wir das CAD-MLLM vor, das erste System, das in der Lage ist, parametrische CAD-Modelle zu generieren, abhängig von der multimodalen Eingabe. Innerhalb des CAD-MLLM-Frameworks nutzen wir die Befehlssequenzen von CAD-Modellen und setzen dann fortschrittliche große Sprachmodelle (LLMs) ein, um den Merkmalsraum über diese vielfältigen multimodalen Daten und vektorisierten Darstellungen von CAD-Modellen auszurichten. Um das Modelltraining zu erleichtern, entwerfen wir eine umfassende Datenkonstruktions- und Annotationspipeline, die jedes CAD-Modell mit entsprechenden multimodalen Daten ausstattet. Unser resultierender Datensatz, namens Omni-CAD, ist der erste multimodale CAD-Datensatz, der textuelle Beschreibungen, Mehransichtsbilder, Punkte und Befehlssequenzen für jedes CAD-Modell enthält. Er umfasst ungefähr 450.000 Instanzen und deren CAD-Konstruktionssequenzen. Um die Qualität unserer generierten CAD-Modelle gründlich zu bewerten, gehen wir über aktuelle Bewertungsmetriken hinaus, die sich auf die Rekonstruktionsqualität konzentrieren, indem wir zusätzliche Metriken einführen, die die Topologiequalität und den Oberflächenabschlussumfang bewerten. Umfangreiche experimentelle Ergebnisse zeigen, dass CAD-MLLM signifikant besser abschneidet als bestehende bedingte generative Methoden und weiterhin äußerst robust gegenüber Störungen und fehlenden Punkten bleibt. Die Projektseite und weitere Visualisierungen finden Sie unter: https://cad-mllm.github.io/
English
This paper aims to design a unified Computer-Aided Design (CAD) generation
system that can easily generate CAD models based on the user's inputs in the
form of textual description, images, point clouds, or even a combination of
them. Towards this goal, we introduce the CAD-MLLM, the first system capable of
generating parametric CAD models conditioned on the multimodal input.
Specifically, within the CAD-MLLM framework, we leverage the command sequences
of CAD models and then employ advanced large language models (LLMs) to align
the feature space across these diverse multi-modalities data and CAD models'
vectorized representations. To facilitate the model training, we design a
comprehensive data construction and annotation pipeline that equips each CAD
model with corresponding multimodal data. Our resulting dataset, named
Omni-CAD, is the first multimodal CAD dataset that contains textual
description, multi-view images, points, and command sequence for each CAD
model. It contains approximately 450K instances and their CAD construction
sequences. To thoroughly evaluate the quality of our generated CAD models, we
go beyond current evaluation metrics that focus on reconstruction quality by
introducing additional metrics that assess topology quality and surface
enclosure extent. Extensive experimental results demonstrate that CAD-MLLM
significantly outperforms existing conditional generative methods and remains
highly robust to noises and missing points. The project page and more
visualizations can be found at: https://cad-mllm.github.io/Summary
AI-Generated Summary