MARVEL-40M+: Elaborazione Visiva a Più Livelli per la Creazione di Contenuti Testuali in 3D ad Alta Fedeltà
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation
November 26, 2024
Autori: Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
cs.AI
Abstract
La generazione di contenuti 3D ad alta fedeltà da prompt di testo rimane una sfida significativa nella visione artificiale a causa delle dimensioni limitate, della diversità e della profondità dell'annotazione dei dataset esistenti. Per affrontare questo problema, presentiamo MARVEL-40M+, un ampio dataset con 40 milioni di annotazioni di testo per oltre 8,9 milioni di risorse 3D aggregate da sette importanti dataset 3D. Il nostro contributo è un innovativo pipeline di annotazione multi-stadio che integra VLM e LLM multi-vista preaddestrati open-source per produrre automaticamente descrizioni multi livello, che vanno da dettagliate (150-200 parole) a tag semantici concisi (10-20 parole). Questa struttura supporta sia la ricostruzione 3D dettagliata che il prototipaggio rapido. Inoltre, incorporiamo metadati umani dai dataset di origine nel nostro pipeline di annotazione per aggiungere informazioni specifiche del dominio nelle nostre annotazioni e ridurre le allucinazioni di VLM. Inoltre, sviluppiamo MARVEL-FX3D, un pipeline di testo-3D a due stadi. Affiniamo Stable Diffusion con le nostre annotazioni e utilizziamo una rete immagine-3D preaddestrata per generare mesh 3D testurizzate entro 15 secondi. Valutazioni approfondite mostrano che MARVEL-40M+ supera significativamente i dataset esistenti in termini di qualità dell'annotazione e diversità linguistica, raggiungendo tassi di successo del 72,41% da parte di GPT-4 e del 73,40% da parte di valutatori umani.
English
Generating high-fidelity 3D content from text prompts remains a significant
challenge in computer vision due to the limited size, diversity, and annotation
depth of the existing datasets. To address this, we introduce MARVEL-40M+, an
extensive dataset with 40 million text annotations for over 8.9 million 3D
assets aggregated from seven major 3D datasets. Our contribution is a novel
multi-stage annotation pipeline that integrates open-source pretrained
multi-view VLMs and LLMs to automatically produce multi-level descriptions,
ranging from detailed (150-200 words) to concise semantic tags (10-20 words).
This structure supports both fine-grained 3D reconstruction and rapid
prototyping. Furthermore, we incorporate human metadata from source datasets
into our annotation pipeline to add domain-specific information in our
annotation and reduce VLM hallucinations. Additionally, we develop MARVEL-FX3D,
a two-stage text-to-3D pipeline. We fine-tune Stable Diffusion with our
annotations and use a pretrained image-to-3D network to generate 3D textured
meshes within 15s. Extensive evaluations show that MARVEL-40M+ significantly
outperforms existing datasets in annotation quality and linguistic diversity,
achieving win rates of 72.41% by GPT-4 and 73.40% by human evaluators.Summary
AI-Generated Summary