MARVEL-40M+: Elaborazione Visiva a Più Livelli per la Creazione di Contenuti Testuali in 3D ad Alta Fedeltà

Abstract

La generazione di contenuti 3D ad alta fedeltà da prompt di testo rimane una sfida significativa nella visione artificiale a causa delle dimensioni limitate, della diversità e della profondità dell'annotazione dei dataset esistenti. Per affrontare questo problema, presentiamo MARVEL-40M+, un ampio dataset con 40 milioni di annotazioni di testo per oltre 8,9 milioni di risorse 3D aggregate da sette importanti dataset 3D. Il nostro contributo è un innovativo pipeline di annotazione multi-stadio che integra VLM e LLM multi-vista preaddestrati open-source per produrre automaticamente descrizioni multi livello, che vanno da dettagliate (150-200 parole) a tag semantici concisi (10-20 parole). Questa struttura supporta sia la ricostruzione 3D dettagliata che il prototipaggio rapido. Inoltre, incorporiamo metadati umani dai dataset di origine nel nostro pipeline di annotazione per aggiungere informazioni specifiche del dominio nelle nostre annotazioni e ridurre le allucinazioni di VLM. Inoltre, sviluppiamo MARVEL-FX3D, un pipeline di testo-3D a due stadi. Affiniamo Stable Diffusion con le nostre annotazioni e utilizziamo una rete immagine-3D preaddestrata per generare mesh 3D testurizzate entro 15 secondi. Valutazioni approfondite mostrano che MARVEL-40M+ supera significativamente i dataset esistenti in termini di qualità dell'annotazione e diversità linguistica, raggiungendo tassi di successo del 72,41% da parte di GPT-4 e del 73,40% da parte di valutatori umani.

English

Generating high-fidelity 3D content from text prompts remains a significant challenge in computer vision due to the limited size, diversity, and annotation depth of the existing datasets. To address this, we introduce MARVEL-40M+, an extensive dataset with 40 million text annotations for over 8.9 million 3D assets aggregated from seven major 3D datasets. Our contribution is a novel multi-stage annotation pipeline that integrates open-source pretrained multi-view VLMs and LLMs to automatically produce multi-level descriptions, ranging from detailed (150-200 words) to concise semantic tags (10-20 words). This structure supports both fine-grained 3D reconstruction and rapid prototyping. Furthermore, we incorporate human metadata from source datasets into our annotation pipeline to add domain-specific information in our annotation and reduce VLM hallucinations. Additionally, we develop MARVEL-FX3D, a two-stage text-to-3D pipeline. We fine-tune Stable Diffusion with our annotations and use a pretrained image-to-3D network to generate 3D textured meshes within 15s. Extensive evaluations show that MARVEL-40M+ significantly outperforms existing datasets in annotation quality and linguistic diversity, achieving win rates of 72.41% by GPT-4 and 73.40% by human evaluators.

MARVEL-40M+: Elaborazione Visiva a Più Livelli per la Creazione di Contenuti Testuali in 3D ad Alta Fedeltà

MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Abstract

Summary

Support