SphereDiff: Generazione di Immagini e Video Panoramici Omnidirezionali senza Ottimizzazione tramite Rappresentazione Latente Sferica
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation
April 19, 2025
Autori: Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo
cs.AI
Abstract
La crescente domanda di applicazioni AR/VR ha evidenziato la necessità di contenuti panoramici a 360 gradi di alta qualità. Tuttavia, generare immagini e video panoramici a 360 gradi di alta qualità rimane un compito impegnativo a causa delle gravi distorsioni introdotte dalla proiezione equirettangolare (ERP). Gli approcci esistenti o adattano modelli di diffusione pre-addestrati su dataset ERP limitati o tentano metodi senza adattamento che si basano comunque su rappresentazioni latenti ERP, portando a discontinuità vicino ai poli. In questo articolo, introduciamo SphereDiff, un nuovo approccio per la generazione senza soluzione di continuità di immagini e video panoramici a 360 gradi utilizzando modelli di diffusione all'avanguardia senza ulteriori adattamenti. Definiamo una rappresentazione latente sferica che garantisce una distribuzione uniforme in tutte le prospettive, mitigando le distorsioni intrinseche dell'ERP. Estendiamo MultiDiffusion allo spazio latente sferico e proponiamo un metodo di campionamento latente sferico per consentire l'uso diretto di modelli di diffusione pre-addestrati. Inoltre, introduciamo una media ponderata consapevole delle distorsioni per migliorare ulteriormente la qualità della generazione nel processo di proiezione. Il nostro metodo supera gli approcci esistenti nella generazione di contenuti panoramici a 360 gradi mantenendo un'elevata fedeltà, rendendolo una soluzione robusta per applicazioni AR/VR immersive. Il codice è disponibile qui. https://github.com/pmh9960/SphereDiff
English
The increasing demand for AR/VR applications has highlighted the need for
high-quality 360-degree panoramic content. However, generating high-quality
360-degree panoramic images and videos remains a challenging task due to the
severe distortions introduced by equirectangular projection (ERP). Existing
approaches either fine-tune pretrained diffusion models on limited ERP datasets
or attempt tuning-free methods that still rely on ERP latent representations,
leading to discontinuities near the poles. In this paper, we introduce
SphereDiff, a novel approach for seamless 360-degree panoramic image and video
generation using state-of-the-art diffusion models without additional tuning.
We define a spherical latent representation that ensures uniform distribution
across all perspectives, mitigating the distortions inherent in ERP. We extend
MultiDiffusion to spherical latent space and propose a spherical latent
sampling method to enable direct use of pretrained diffusion models. Moreover,
we introduce distortion-aware weighted averaging to further improve the
generation quality in the projection process. Our method outperforms existing
approaches in generating 360-degree panoramic content while maintaining high
fidelity, making it a robust solution for immersive AR/VR applications. The
code is available here. https://github.com/pmh9960/SphereDiffSummary
AI-Generated Summary