ChatPaper.aiChatPaper

MARVEL-40M+: 고품질 텍스트 대 3D 콘텐츠 생성을 위한 다중 수준 시각적 설명

MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

November 26, 2024
저자: Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
cs.AI

초록

텍스트 프롬프트로부터 고품질 3D 콘텐츠를 생성하는 것은 기존 데이터셋의 크기, 다양성 및 주석 깊이의 제한으로 인해 컴퓨터 비전에서 중요한 도전 과제입니다. 이를 해결하기 위해 우리는 MARVEL-40M+를 소개합니다. 이는 7개의 주요 3D 데이터셋으로부터 집계된 8.9백만 개 이상의 3D 에셋을 위한 4천만 개의 텍스트 주석을 포함하는 방대한 데이터셋입니다. 우리의 기여는 오픈 소스 사전 훈련된 다중 뷰 VLM과 LLM을 통합한 새로운 다중 단계 주석 파이프라인입니다. 이를 통해 상세한(150-200 단어)부터 간결한 의미 태그(10-20 단어)까지의 다중 수준 설명을 자동으로 생성합니다. 이 구조는 세밀한 3D 재구성과 신속한 프로토타이핑을 지원합니다. 더불어, 우리는 소스 데이터셋에서 인간 메타데이터를 주석 파이프라인에 통합하여 주석에 도메인 특정 정보를 추가하고 VLM 환각을 줄입니다. 게다가, 우리는 MARVEL-FX3D를 개발했습니다. 이는 두 단계의 텍스트-3D 파이프라인입니다. 우리는 주석을 통해 Stable Diffusion을 세밀하게 조정하고 사전 훈련된 이미지-3D 네트워크를 사용하여 15초 이내에 3D 텍스처 매쉬를 생성합니다. 방대한 평가 결과 MARVEL-40M+가 주석 품질과 언어 다양성에서 기존 데이터셋을 크게 능가하며, GPT-4에 의한 승률은 72.41%, 인간 평가자에 의한 승률은 73.40%에 달한다는 것을 보여줍니다.
English
Generating high-fidelity 3D content from text prompts remains a significant challenge in computer vision due to the limited size, diversity, and annotation depth of the existing datasets. To address this, we introduce MARVEL-40M+, an extensive dataset with 40 million text annotations for over 8.9 million 3D assets aggregated from seven major 3D datasets. Our contribution is a novel multi-stage annotation pipeline that integrates open-source pretrained multi-view VLMs and LLMs to automatically produce multi-level descriptions, ranging from detailed (150-200 words) to concise semantic tags (10-20 words). This structure supports both fine-grained 3D reconstruction and rapid prototyping. Furthermore, we incorporate human metadata from source datasets into our annotation pipeline to add domain-specific information in our annotation and reduce VLM hallucinations. Additionally, we develop MARVEL-FX3D, a two-stage text-to-3D pipeline. We fine-tune Stable Diffusion with our annotations and use a pretrained image-to-3D network to generate 3D textured meshes within 15s. Extensive evaluations show that MARVEL-40M+ significantly outperforms existing datasets in annotation quality and linguistic diversity, achieving win rates of 72.41% by GPT-4 and 73.40% by human evaluators.

Summary

AI-Generated Summary

PDF214November 28, 2024