CAD-MLLM: Het verenigen van multimodaliteit-geconditioneerde CAD-generatie met MLLM.

CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM

November 7, 2024
Auteurs: Jingwei Xu, Chenyu Wang, Zibo Zhao, Wen Liu, Yi Ma, Shenghua Gao
cs.AI

Samenvatting

Dit artikel heeft als doel een geïntegreerd Computer-Ondersteund Ontwerp (CAD) generatiesysteem te ontwerpen dat gemakkelijk CAD-modellen kan genereren op basis van de invoer van de gebruiker in de vorm van tekstuele beschrijvingen, afbeeldingen, puntenwolken, of zelfs een combinatie daarvan. Met het oog op dit doel introduceren we de CAD-MLLM, het eerste systeem dat in staat is om parametrische CAD-modellen te genereren die afhankelijk zijn van de multimodale invoer. Binnen het CAD-MLLM-framework maken we specifiek gebruik van de commandosequenties van CAD-modellen en maken we vervolgens gebruik van geavanceerde grote taalmodellen (LLM's) om de kenmerkruimte over deze diverse multimodale gegevens en de gevectoriseerde representaties van CAD-modellen uit te lijnen. Om het modeltrainen te vergemakkelijken, ontwerpen we een uitgebreide gegevensconstructie- en annotatiepijplijn die elk CAD-model uitrust met bijbehorende multimodale gegevens. Ons resulterende dataset, genaamd Omni-CAD, is de eerste multimodale CAD-dataset die tekstuele beschrijvingen, multi-view afbeeldingen, punten en commandosequenties voor elk CAD-model bevat. Het bevat ongeveer 450K exemplaren en hun CAD-constructiesequenties. Om de kwaliteit van onze gegenereerde CAD-modellen grondig te evalueren, gaan we verder dan de huidige evaluatiemetrics die zich richten op reconstructiekwaliteit door aanvullende metrics te introduceren die de topologiekwaliteit en de omvang van de oppervlakte-omsluiting beoordelen. Uitgebreide experimentele resultaten tonen aan dat CAD-MLLM aanzienlijk beter presteert dan bestaande conditionele generatieve methoden en zeer robuust blijft ten opzichte van ruis en ontbrekende punten. De projectpagina en meer visualisaties zijn te vinden op: https://cad-mllm.github.io/
English
This paper aims to design a unified Computer-Aided Design (CAD) generation system that can easily generate CAD models based on the user's inputs in the form of textual description, images, point clouds, or even a combination of them. Towards this goal, we introduce the CAD-MLLM, the first system capable of generating parametric CAD models conditioned on the multimodal input. Specifically, within the CAD-MLLM framework, we leverage the command sequences of CAD models and then employ advanced large language models (LLMs) to align the feature space across these diverse multi-modalities data and CAD models' vectorized representations. To facilitate the model training, we design a comprehensive data construction and annotation pipeline that equips each CAD model with corresponding multimodal data. Our resulting dataset, named Omni-CAD, is the first multimodal CAD dataset that contains textual description, multi-view images, points, and command sequence for each CAD model. It contains approximately 450K instances and their CAD construction sequences. To thoroughly evaluate the quality of our generated CAD models, we go beyond current evaluation metrics that focus on reconstruction quality by introducing additional metrics that assess topology quality and surface enclosure extent. Extensive experimental results demonstrate that CAD-MLLM significantly outperforms existing conditional generative methods and remains highly robust to noises and missing points. The project page and more visualizations can be found at: https://cad-mllm.github.io/

Summary

AI-Generated Summary

PDF72November 14, 2024