FirePlace: Affinamenti Geometrici del Ragionamento di Senso Comune nei Modelli Linguistici per il Posizionamento di Oggetti 3D

Abstract

La generazione di scene con asset 3D rappresenta una sfida complessa, che richiede sia una comprensione semantica di alto livello che un ragionamento geometrico di basso livello. Sebbene i Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) eccellano nei compiti semantici, la loro applicazione alla generazione di scene 3D è limitata dalla loro scarsa capacità di ancoraggio alla geometria 3D. In questo articolo, indaghiamo come utilizzare al meglio gli MLLMs in un'attività di posizionamento di oggetti. A tal fine, introduciamo un nuovo framework, FirePlace, che applica gli MLLMs esistenti in (1) ragionamento geometrico 3D e estrazione di dettagli geometrici rilevanti dalla scena 3D, (2) costruzione e risoluzione di vincoli geometrici sulla geometria di basso livello estratta, e (3) selezione per posizionamenti finali che rispettino il buon senso. Combinando il ragionamento geometrico con la comprensione del mondo reale degli MLLMs, il nostro metodo può proporre posizionamenti di oggetti che soddisfano sia i vincoli geometrici che considerazioni semantiche di alto livello basate sul buon senso. I nostri esperimenti dimostrano che queste capacità consentono al nostro metodo di posizionare oggetti in modo più efficace in scene complesse con geometrie intricate, superando la qualità dei lavori precedenti.

English

Scene generation with 3D assets presents a complex challenge, requiring both high-level semantic understanding and low-level geometric reasoning. While Multimodal Large Language Models (MLLMs) excel at semantic tasks, their application to 3D scene generation is hindered by their limited grounding on 3D geometry. In this paper, we investigate how to best work with MLLMs in an object placement task. Towards this goal, we introduce a novel framework, FirePlace, that applies existing MLLMs in (1) 3D geometric reasoning and the extraction of relevant geometric details from the 3D scene, (2) constructing and solving geometric constraints on the extracted low-level geometry, and (3) pruning for final placements that conform to common sense. By combining geometric reasoning with real-world understanding of MLLMs, our method can propose object placements that satisfy both geometric constraints as well as high-level semantic common-sense considerations. Our experiments show that these capabilities allow our method to place objects more effectively in complex scenes with intricate geometry, surpassing the quality of prior work.

FirePlace: Affinamenti Geometrici del Ragionamento di Senso Comune nei Modelli Linguistici per il Posizionamento di Oggetti 3D

FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement

Abstract

Summary

Support

Support