CAD-MLLM: Het verenigen van multimodaliteit-geconditioneerde CAD-generatie met MLLM.
CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
November 7, 2024
Auteurs: Jingwei Xu, Chenyu Wang, Zibo Zhao, Wen Liu, Yi Ma, Shenghua Gao
cs.AI
Samenvatting
Dit artikel heeft als doel een geïntegreerd Computer-Ondersteund Ontwerp (CAD) generatiesysteem te ontwerpen dat gemakkelijk CAD-modellen kan genereren op basis van de invoer van de gebruiker in de vorm van tekstuele beschrijvingen, afbeeldingen, puntenwolken, of zelfs een combinatie daarvan. Met het oog op dit doel introduceren we de CAD-MLLM, het eerste systeem dat in staat is om parametrische CAD-modellen te genereren die afhankelijk zijn van de multimodale invoer. Binnen het CAD-MLLM-framework maken we specifiek gebruik van de commandosequenties van CAD-modellen en maken we vervolgens gebruik van geavanceerde grote taalmodellen (LLM's) om de kenmerkruimte over deze diverse multimodale gegevens en de gevectoriseerde representaties van CAD-modellen uit te lijnen. Om het modeltrainen te vergemakkelijken, ontwerpen we een uitgebreide gegevensconstructie- en annotatiepijplijn die elk CAD-model uitrust met bijbehorende multimodale gegevens. Ons resulterende dataset, genaamd Omni-CAD, is de eerste multimodale CAD-dataset die tekstuele beschrijvingen, multi-view afbeeldingen, punten en commandosequenties voor elk CAD-model bevat. Het bevat ongeveer 450K exemplaren en hun CAD-constructiesequenties. Om de kwaliteit van onze gegenereerde CAD-modellen grondig te evalueren, gaan we verder dan de huidige evaluatiemetrics die zich richten op reconstructiekwaliteit door aanvullende metrics te introduceren die de topologiekwaliteit en de omvang van de oppervlakte-omsluiting beoordelen. Uitgebreide experimentele resultaten tonen aan dat CAD-MLLM aanzienlijk beter presteert dan bestaande conditionele generatieve methoden en zeer robuust blijft ten opzichte van ruis en ontbrekende punten. De projectpagina en meer visualisaties zijn te vinden op: https://cad-mllm.github.io/
English
This paper aims to design a unified Computer-Aided Design (CAD) generation
system that can easily generate CAD models based on the user's inputs in the
form of textual description, images, point clouds, or even a combination of
them. Towards this goal, we introduce the CAD-MLLM, the first system capable of
generating parametric CAD models conditioned on the multimodal input.
Specifically, within the CAD-MLLM framework, we leverage the command sequences
of CAD models and then employ advanced large language models (LLMs) to align
the feature space across these diverse multi-modalities data and CAD models'
vectorized representations. To facilitate the model training, we design a
comprehensive data construction and annotation pipeline that equips each CAD
model with corresponding multimodal data. Our resulting dataset, named
Omni-CAD, is the first multimodal CAD dataset that contains textual
description, multi-view images, points, and command sequence for each CAD
model. It contains approximately 450K instances and their CAD construction
sequences. To thoroughly evaluate the quality of our generated CAD models, we
go beyond current evaluation metrics that focus on reconstruction quality by
introducing additional metrics that assess topology quality and surface
enclosure extent. Extensive experimental results demonstrate that CAD-MLLM
significantly outperforms existing conditional generative methods and remains
highly robust to noises and missing points. The project page and more
visualizations can be found at: https://cad-mllm.github.io/Summary
AI-Generated Summary