SphereDiff: Afstemningsvrije Omnidirectionele Panoramabeeld- en Videogeneratie via Sferische Latente Representatie
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation
April 19, 2025
Auteurs: Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo
cs.AI
Samenvatting
De toenemende vraag naar AR/VR-toepassingen heeft de behoefte aan hoogwaardige 360-graden panoramische content benadrukt. Het genereren van hoogwaardige 360-graden panoramische afbeeldingen en video's blijft echter een uitdagende taak vanwege de ernstige vervormingen die worden geïntroduceerd door equirectangulaire projectie (ERP). Bestaande benaderingen finetunen vooraf getrainde diffusiemodellen op beperkte ERP-datasets of proberen tuningsvrije methoden die nog steeds vertrouwen op ERP-latente representaties, wat leidt tot discontinuïteiten nabij de polen. In dit artikel introduceren we SphereDiff, een nieuwe benadering voor naadloze 360-graden panoramische afbeeldingen en video-generatie met behulp van state-of-the-art diffusiemodellen zonder aanvullende tuning. We definiëren een sferische latente representatie die een uniforme verdeling over alle perspectieven garandeert, waardoor de inherente vervormingen in ERP worden gemitigeerd. We breiden MultiDiffusion uit naar een sferische latente ruimte en stellen een sferische latente bemonsteringsmethode voor om het directe gebruik van vooraf getrainde diffusiemodellen mogelijk te maken. Bovendien introduceren we vervormingsbewust gewogen gemiddelden om de generatiekwaliteit in het projectieproces verder te verbeteren. Onze methode overtreft bestaande benaderingen in het genereren van 360-graden panoramische content terwijl een hoge kwaliteit wordt behouden, wat het een robuuste oplossing maakt voor immersive AR/VR-toepassingen. De code is hier beschikbaar. https://github.com/pmh9960/SphereDiff
English
The increasing demand for AR/VR applications has highlighted the need for
high-quality 360-degree panoramic content. However, generating high-quality
360-degree panoramic images and videos remains a challenging task due to the
severe distortions introduced by equirectangular projection (ERP). Existing
approaches either fine-tune pretrained diffusion models on limited ERP datasets
or attempt tuning-free methods that still rely on ERP latent representations,
leading to discontinuities near the poles. In this paper, we introduce
SphereDiff, a novel approach for seamless 360-degree panoramic image and video
generation using state-of-the-art diffusion models without additional tuning.
We define a spherical latent representation that ensures uniform distribution
across all perspectives, mitigating the distortions inherent in ERP. We extend
MultiDiffusion to spherical latent space and propose a spherical latent
sampling method to enable direct use of pretrained diffusion models. Moreover,
we introduce distortion-aware weighted averaging to further improve the
generation quality in the projection process. Our method outperforms existing
approaches in generating 360-degree panoramic content while maintaining high
fidelity, making it a robust solution for immersive AR/VR applications. The
code is available here. https://github.com/pmh9960/SphereDiffSummary
AI-Generated Summary