Dando Vida aos Objetos: Geração 4D a partir de objetos 3D
Bringing Objects to Life: 4D generation from 3D objects
December 29, 2024
Autores: Ohad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
cs.AI
Resumo
Os avanços recentes em modelagem generativa agora permitem a criação de conteúdo 4D (objetos 3D em movimento) controlado por prompts de texto. A geração 4D tem um grande potencial em aplicações como mundos virtuais, mídia e jogos, mas os métodos existentes oferecem controle limitado sobre a aparência e geometria do conteúdo gerado. Neste trabalho, introduzimos um método para animar objetos 3D fornecidos pelo usuário condicionando-os a prompts textuais para orientar a geração 4D, permitindo animações personalizadas enquanto mantemos a identidade do objeto original. Primeiramente, convertemos uma malha 3D em um Campo de Radiância Neural (NeRF) "estático" 4D que preserva os atributos visuais do objeto de entrada. Em seguida, animamos o objeto usando um modelo de difusão de Imagem para Vídeo conduzido por texto. Para melhorar o realismo do movimento, introduzimos um protocolo incremental de seleção de pontos de vista para amostrar perspectivas e promover movimentos realistas, e uma perda de Amostragem de Destilação de Pontuação (SDS) mascarada, que utiliza mapas de atenção para focar a otimização em regiões relevantes. Avaliamos nosso modelo em termos de coerência temporal, aderência aos prompts e fidelidade visual, e descobrimos que nosso método supera as bases que se baseiam em outras abordagens, alcançando melhorias de até três vezes na preservação de identidade medida pelos escores LPIPS, e equilibrando efetivamente a qualidade visual com o conteúdo dinâmico.
English
Recent advancements in generative modeling now enable the creation of 4D
content (moving 3D objects) controlled with text prompts. 4D generation has
large potential in applications like virtual worlds, media, and gaming, but
existing methods provide limited control over the appearance and geometry of
generated content. In this work, we introduce a method for animating
user-provided 3D objects by conditioning on textual prompts to guide 4D
generation, enabling custom animations while maintaining the identity of the
original object. We first convert a 3D mesh into a ``static" 4D Neural Radiance
Field (NeRF) that preserves the visual attributes of the input object. Then, we
animate the object using an Image-to-Video diffusion model driven by text. To
improve motion realism, we introduce an incremental viewpoint selection
protocol for sampling perspectives to promote lifelike movement and a masked
Score Distillation Sampling (SDS) loss, which leverages attention maps to focus
optimization on relevant regions. We evaluate our model in terms of temporal
coherence, prompt adherence, and visual fidelity and find that our method
outperforms baselines that are based on other approaches, achieving up to
threefold improvements in identity preservation measured using LPIPS scores,
and effectively balancing visual quality with dynamic content.Summary
AI-Generated Summary