Portare gli oggetti alla vita: generazione 4D da oggetti 3D
Bringing Objects to Life: 4D generation from 3D objects
December 29, 2024
Autori: Ohad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
cs.AI
Abstract
I recenti progressi nella modellazione generativa consentono ora la creazione di contenuti 4D (oggetti 3D in movimento) controllati da prompt di testo. La generazione 4D ha un grande potenziale in applicazioni come mondi virtuali, media e videogiochi, ma i metodi esistenti offrono un controllo limitato sull'aspetto e sulla geometria dei contenuti generati. In questo lavoro, presentiamo un metodo per animare oggetti 3D forniti dall'utente condizionandoli con prompt testuali per guidare la generazione 4D, consentendo animazioni personalizzate mantenendo l'identità dell'oggetto originale. Prima convertiamo una mesh 3D in un "statico" campo di radianza neurale (NeRF) 4D che conserva gli attributi visivi dell'oggetto in ingresso. Successivamente, animiamo l'oggetto utilizzando un modello di diffusione immagine-video guidato dal testo. Per migliorare il realismo del movimento, introduciamo un protocollo incrementale di selezione del punto di vista per campionare prospettive al fine di promuovere un movimento realistico e una perdita di campionamento di distillazione del punteggio mascherato (SDS), che sfrutta mappe di attenzione per concentrare l'ottimizzazione sulle regioni rilevanti. Valutiamo il nostro modello in termini di coerenza temporale, aderenza ai prompt e fedeltà visiva e scopriamo che il nostro metodo supera le baselines basate su altri approcci, raggiungendo fino a triplici miglioramenti nella conservazione dell'identità misurata utilizzando i punteggi LPIPS, e bilanciando efficacemente la qualità visiva con i contenuti dinamici.
English
Recent advancements in generative modeling now enable the creation of 4D
content (moving 3D objects) controlled with text prompts. 4D generation has
large potential in applications like virtual worlds, media, and gaming, but
existing methods provide limited control over the appearance and geometry of
generated content. In this work, we introduce a method for animating
user-provided 3D objects by conditioning on textual prompts to guide 4D
generation, enabling custom animations while maintaining the identity of the
original object. We first convert a 3D mesh into a ``static" 4D Neural Radiance
Field (NeRF) that preserves the visual attributes of the input object. Then, we
animate the object using an Image-to-Video diffusion model driven by text. To
improve motion realism, we introduce an incremental viewpoint selection
protocol for sampling perspectives to promote lifelike movement and a masked
Score Distillation Sampling (SDS) loss, which leverages attention maps to focus
optimization on relevant regions. We evaluate our model in terms of temporal
coherence, prompt adherence, and visual fidelity and find that our method
outperforms baselines that are based on other approaches, achieving up to
threefold improvements in identity preservation measured using LPIPS scores,
and effectively balancing visual quality with dynamic content.Summary
AI-Generated Summary