FirePlace: Affinamenti Geometrici del Ragionamento di Senso Comune nei Modelli Linguistici per il Posizionamento di Oggetti 3D
FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement
March 6, 2025
Autori: Ian Huang, Yanan Bao, Karen Truong, Howard Zhou, Cordelia Schmid, Leonidas Guibas, Alireza Fathi
cs.AI
Abstract
La generazione di scene con asset 3D rappresenta una sfida complessa, che richiede sia una comprensione semantica di alto livello che un ragionamento geometrico di basso livello. Sebbene i Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) eccellano nei compiti semantici, la loro applicazione alla generazione di scene 3D è limitata dalla loro scarsa capacità di ancoraggio alla geometria 3D. In questo articolo, indaghiamo come utilizzare al meglio gli MLLMs in un'attività di posizionamento di oggetti. A tal fine, introduciamo un nuovo framework, FirePlace, che applica gli MLLMs esistenti in (1) ragionamento geometrico 3D e estrazione di dettagli geometrici rilevanti dalla scena 3D, (2) costruzione e risoluzione di vincoli geometrici sulla geometria di basso livello estratta, e (3) selezione per posizionamenti finali che rispettino il buon senso. Combinando il ragionamento geometrico con la comprensione del mondo reale degli MLLMs, il nostro metodo può proporre posizionamenti di oggetti che soddisfano sia i vincoli geometrici che considerazioni semantiche di alto livello basate sul buon senso. I nostri esperimenti dimostrano che queste capacità consentono al nostro metodo di posizionare oggetti in modo più efficace in scene complesse con geometrie intricate, superando la qualità dei lavori precedenti.
English
Scene generation with 3D assets presents a complex challenge, requiring both
high-level semantic understanding and low-level geometric reasoning. While
Multimodal Large Language Models (MLLMs) excel at semantic tasks, their
application to 3D scene generation is hindered by their limited grounding on 3D
geometry. In this paper, we investigate how to best work with MLLMs in an
object placement task. Towards this goal, we introduce a novel framework,
FirePlace, that applies existing MLLMs in (1) 3D geometric reasoning and the
extraction of relevant geometric details from the 3D scene, (2) constructing
and solving geometric constraints on the extracted low-level geometry, and (3)
pruning for final placements that conform to common sense. By combining
geometric reasoning with real-world understanding of MLLMs, our method can
propose object placements that satisfy both geometric constraints as well as
high-level semantic common-sense considerations. Our experiments show that
these capabilities allow our method to place objects more effectively in
complex scenes with intricate geometry, surpassing the quality of prior work.Summary
AI-Generated Summary