ChatPaper.aiChatPaper

NormalCrafter: Apprendimento di Normali Temporalmente Coerenti da Video con Priorità di Diffusione

NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors

April 15, 2025
Autori: Yanrui Bin, Wenbo Hu, Haoyuan Wang, Xinya Chen, Bing Wang
cs.AI

Abstract

La stima delle normali di superficie rappresenta un pilastro fondamentale per un'ampia gamma di applicazioni di visione artificiale. Sebbene numerosi sforzi siano stati dedicati agli scenari di immagini statiche, garantire la coerenza temporale nella stima delle normali basata su video rimane una sfida formidabile. Invece di limitarci a potenziare i metodi esistenti con componenti temporali, presentiamo NormalCrafter per sfruttare i priori temporali intrinseci dei modelli di diffusione video. Per assicurare una stima delle normali ad alta fedeltà attraverso le sequenze, proponiamo la Regolarizzazione delle Caratteristiche Semantiche (SFR), che allinea le caratteristiche di diffusione con i segnali semantici, incoraggiando il modello a concentrarsi sulla semantica intrinseca della scena. Inoltre, introduciamo un protocollo di addestramento in due fasi che sfrutta sia l'apprendimento nello spazio latente che in quello dei pixel, preservando l'accuratezza spaziale mantenendo al contempo un contesto temporale lungo. Valutazioni estensive dimostrano l'efficacia del nostro metodo, evidenziando una performance superiore nella generazione di sequenze di normali temporalmente coerenti con dettagli intricati da video diversi.
English
Surface normal estimation serves as a cornerstone for a spectrum of computer vision applications. While numerous efforts have been devoted to static image scenarios, ensuring temporal coherence in video-based normal estimation remains a formidable challenge. Instead of merely augmenting existing methods with temporal components, we present NormalCrafter to leverage the inherent temporal priors of video diffusion models. To secure high-fidelity normal estimation across sequences, we propose Semantic Feature Regularization (SFR), which aligns diffusion features with semantic cues, encouraging the model to concentrate on the intrinsic semantics of the scene. Moreover, we introduce a two-stage training protocol that leverages both latent and pixel space learning to preserve spatial accuracy while maintaining long temporal context. Extensive evaluations demonstrate the efficacy of our method, showcasing a superior performance in generating temporally consistent normal sequences with intricate details from diverse videos.

Summary

AI-Generated Summary

PDF142April 16, 2025