CAD-MLLM: Vereinigung der multimodalitätsbedingten CAD-Generierung mit MLLM

Zusammenfassung

Dieses Paper zielt darauf ab, ein vereinheitlichtes Computer-Aided Design (CAD) Generierungssystem zu entwerfen, das auf einfache Weise CAD-Modelle basierend auf den Benutzereingaben in Form von textueller Beschreibung, Bildern, Punktewolken oder sogar einer Kombination davon generieren kann. Zu diesem Zweck stellen wir das CAD-MLLM vor, das erste System, das in der Lage ist, parametrische CAD-Modelle zu generieren, abhängig von der multimodalen Eingabe. Innerhalb des CAD-MLLM-Frameworks nutzen wir die Befehlssequenzen von CAD-Modellen und setzen dann fortschrittliche große Sprachmodelle (LLMs) ein, um den Merkmalsraum über diese vielfältigen multimodalen Daten und vektorisierten Darstellungen von CAD-Modellen auszurichten. Um das Modelltraining zu erleichtern, entwerfen wir eine umfassende Datenkonstruktions- und Annotationspipeline, die jedes CAD-Modell mit entsprechenden multimodalen Daten ausstattet. Unser resultierender Datensatz, namens Omni-CAD, ist der erste multimodale CAD-Datensatz, der textuelle Beschreibungen, Mehransichtsbilder, Punkte und Befehlssequenzen für jedes CAD-Modell enthält. Er umfasst ungefähr 450.000 Instanzen und deren CAD-Konstruktionssequenzen. Um die Qualität unserer generierten CAD-Modelle gründlich zu bewerten, gehen wir über aktuelle Bewertungsmetriken hinaus, die sich auf die Rekonstruktionsqualität konzentrieren, indem wir zusätzliche Metriken einführen, die die Topologiequalität und den Oberflächenabschlussumfang bewerten. Umfangreiche experimentelle Ergebnisse zeigen, dass CAD-MLLM signifikant besser abschneidet als bestehende bedingte generative Methoden und weiterhin äußerst robust gegenüber Störungen und fehlenden Punkten bleibt. Die Projektseite und weitere Visualisierungen finden Sie unter: https://cad-mllm.github.io/

English

This paper aims to design a unified Computer-Aided Design (CAD) generation system that can easily generate CAD models based on the user's inputs in the form of textual description, images, point clouds, or even a combination of them. Towards this goal, we introduce the CAD-MLLM, the first system capable of generating parametric CAD models conditioned on the multimodal input. Specifically, within the CAD-MLLM framework, we leverage the command sequences of CAD models and then employ advanced large language models (LLMs) to align the feature space across these diverse multi-modalities data and CAD models' vectorized representations. To facilitate the model training, we design a comprehensive data construction and annotation pipeline that equips each CAD model with corresponding multimodal data. Our resulting dataset, named Omni-CAD, is the first multimodal CAD dataset that contains textual description, multi-view images, points, and command sequence for each CAD model. It contains approximately 450K instances and their CAD construction sequences. To thoroughly evaluate the quality of our generated CAD models, we go beyond current evaluation metrics that focus on reconstruction quality by introducing additional metrics that assess topology quality and surface enclosure extent. Extensive experimental results demonstrate that CAD-MLLM significantly outperforms existing conditional generative methods and remains highly robust to noises and missing points. The project page and more visualizations can be found at: https://cad-mllm.github.io/

CAD-MLLM: Vereinigung der multimodalitätsbedingten CAD-Generierung mit MLLM

CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM

Zusammenfassung

Summary

Support