CAD-MLLM: 다중 모달리티 조건이 있는 CAD 생성과 MLLM의 통합

CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM

November 7, 2024
저자: Jingwei Xu, Chenyu Wang, Zibo Zhao, Wen Liu, Yi Ma, Shenghua Gao
cs.AI

초록

본 논문은 텍스트 설명, 이미지, 포인트 클라우드 또는 그들의 조합과 같은 사용자 입력을 기반으로 쉽게 CAD 모델을 생성할 수 있는 통합된 컴퓨터 지원 설계(CAD) 생성 시스템을 설계하는 것을 목표로 합니다. 이를 위해, 우리는 다중 모달 입력에 의존하는 매개변수 CAD 모델을 생성할 수 있는 최초의 시스템인 CAD-MLLM을 소개합니다. 구체적으로, CAD-MLLM 프레임워크 내에서 CAD 모델의 명령 시퀀스를 활용하고 다양한 다중 모달 데이터와 CAD 모델의 벡터화된 표현 사이의 특징 공간을 맞추기 위해 고급 대형 언어 모델(LLM)을 활용합니다. 모델 훈련을 용이하게 하기 위해, 우리는 모든 CAD 모델에 해당하는 다중 모달 데이터를 갖춘 포괄적인 데이터 구축 및 주석 파이프라인을 설계합니다. 우리의 결과 데이터 세트인 Omni-CAD는 텍스트 설명, 다중 뷰 이미지, 포인트 및 각 CAD 모델에 대한 명령 시퀀스를 포함하는 최초의 다중 모달 CAD 데이터 세트입니다. 약 45만 개의 인스턴스와 그들의 CAD 구성 시퀀스를 포함하고 있습니다. 우리가 생성한 CAD 모델의 품질을 철저히 평가하기 위해, 재구성 품질에 중점을 둔 현재의 평가 지표를 넘어 토폴로지 품질과 표면 포함 범위를 평가하는 추가 지표를 도입합니다. 광범위한 실험 결과는 CAD-MLLM이 기존의 조건부 생성 방법을 현저히 능가하며 잡음과 누락된 포인트에 대해 높은 강인성을 유지한다는 것을 입증합니다. 프로젝트 페이지와 더 많은 시각화 자료는 다음에서 확인할 수 있습니다: https://cad-mllm.github.io/
English
This paper aims to design a unified Computer-Aided Design (CAD) generation system that can easily generate CAD models based on the user's inputs in the form of textual description, images, point clouds, or even a combination of them. Towards this goal, we introduce the CAD-MLLM, the first system capable of generating parametric CAD models conditioned on the multimodal input. Specifically, within the CAD-MLLM framework, we leverage the command sequences of CAD models and then employ advanced large language models (LLMs) to align the feature space across these diverse multi-modalities data and CAD models' vectorized representations. To facilitate the model training, we design a comprehensive data construction and annotation pipeline that equips each CAD model with corresponding multimodal data. Our resulting dataset, named Omni-CAD, is the first multimodal CAD dataset that contains textual description, multi-view images, points, and command sequence for each CAD model. It contains approximately 450K instances and their CAD construction sequences. To thoroughly evaluate the quality of our generated CAD models, we go beyond current evaluation metrics that focus on reconstruction quality by introducing additional metrics that assess topology quality and surface enclosure extent. Extensive experimental results demonstrate that CAD-MLLM significantly outperforms existing conditional generative methods and remains highly robust to noises and missing points. The project page and more visualizations can be found at: https://cad-mllm.github.io/

Summary

AI-Generated Summary

PDF72November 14, 2024