StyleMe3D: Stilisering met Ontvlochten Priors door Meerdere Encoders op 3D Gaussians
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians
April 21, 2025
Auteurs: Cailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li
cs.AI
Samenvatting
3D Gaussian Splatting (3DGS) blinkt uit in fotorealistische scène-reconstructie, maar heeft moeite met gestileerde scenario's (bijv. cartoons, games) vanwege gefragmenteerde texturen, semantische uitlijning en beperkte aanpassingsvermogen aan abstracte esthetiek. Wij stellen StyleMe3D voor, een holistisch framework voor 3D GS-stijloverdracht dat multi-modale stijlconditionering, multi-level semantische uitlijning en perceptuele kwaliteitsverbetering integreert. Onze belangrijkste inzichten zijn: (1) het optimaliseren van alleen RGB-attributen behoudt geometrische integriteit tijdens stilisering; (2) het ontwarren van laag-, midden- en hoog-niveau semantiek is cruciaal voor coherente stijloverdracht; (3) schaalbaarheid over geïsoleerde objecten en complexe scènes is essentieel voor praktische implementatie. StyleMe3D introduceert vier nieuwe componenten: Dynamic Style Score Distillation (DSSD), dat gebruikmaakt van Stable Diffusion's latente ruimte voor semantische uitlijning; Contrastive Style Descriptor (CSD) voor gelokaliseerde, inhoudsbewuste textuuroverdracht; Simultaneously Optimized Scale (SOS) om stijldetails en structurele samenhang te ontkoppelen; en 3D Gaussian Quality Assessment (3DG-QA), een differentieerbaar esthetisch prior getraind op door mensen beoordeelde data om artefacten te onderdrukken en visuele harmonie te verbeteren. Geëvalueerd op de NeRF synthetische dataset (objecten) en tandt db (scènes) datasets, overtreft StyleMe3D state-of-the-art methoden in het behouden van geometrische details (bijv. gravures op sculpturen) en het waarborgen van stilistische consistentie over scènes (bijv. coherente belichting in landschappen), terwijl real-time rendering behouden blijft. Dit werk verbindt fotorealistische 3D GS en artistieke stilisering, wat toepassingen in gaming, virtuele werelden en digitale kunst ontsluit.
English
3D Gaussian Splatting (3DGS) excels in photorealistic scene reconstruction
but struggles with stylized scenarios (e.g., cartoons, games) due to fragmented
textures, semantic misalignment, and limited adaptability to abstract
aesthetics. We propose StyleMe3D, a holistic framework for 3D GS style transfer
that integrates multi-modal style conditioning, multi-level semantic alignment,
and perceptual quality enhancement. Our key insights include: (1) optimizing
only RGB attributes preserves geometric integrity during stylization; (2)
disentangling low-, medium-, and high-level semantics is critical for coherent
style transfer; (3) scalability across isolated objects and complex scenes is
essential for practical deployment. StyleMe3D introduces four novel components:
Dynamic Style Score Distillation (DSSD), leveraging Stable Diffusion's latent
space for semantic alignment; Contrastive Style Descriptor (CSD) for localized,
content-aware texture transfer; Simultaneously Optimized Scale (SOS) to
decouple style details and structural coherence; and 3D Gaussian Quality
Assessment (3DG-QA), a differentiable aesthetic prior trained on human-rated
data to suppress artifacts and enhance visual harmony. Evaluated on NeRF
synthetic dataset (objects) and tandt db (scenes) datasets, StyleMe3D
outperforms state-of-the-art methods in preserving geometric details (e.g.,
carvings on sculptures) and ensuring stylistic consistency across scenes (e.g.,
coherent lighting in landscapes), while maintaining real-time rendering. This
work bridges photorealistic 3D GS and artistic stylization, unlocking
applications in gaming, virtual worlds, and digital art.Summary
AI-Generated Summary