SphereDiff: Generazione di Immagini e Video Panoramici Omnidirezionali senza Ottimizzazione tramite Rappresentazione Latente Sferica

Abstract

La crescente domanda di applicazioni AR/VR ha evidenziato la necessità di contenuti panoramici a 360 gradi di alta qualità. Tuttavia, generare immagini e video panoramici a 360 gradi di alta qualità rimane un compito impegnativo a causa delle gravi distorsioni introdotte dalla proiezione equirettangolare (ERP). Gli approcci esistenti o adattano modelli di diffusione pre-addestrati su dataset ERP limitati o tentano metodi senza adattamento che si basano comunque su rappresentazioni latenti ERP, portando a discontinuità vicino ai poli. In questo articolo, introduciamo SphereDiff, un nuovo approccio per la generazione senza soluzione di continuità di immagini e video panoramici a 360 gradi utilizzando modelli di diffusione all'avanguardia senza ulteriori adattamenti. Definiamo una rappresentazione latente sferica che garantisce una distribuzione uniforme in tutte le prospettive, mitigando le distorsioni intrinseche dell'ERP. Estendiamo MultiDiffusion allo spazio latente sferico e proponiamo un metodo di campionamento latente sferico per consentire l'uso diretto di modelli di diffusione pre-addestrati. Inoltre, introduciamo una media ponderata consapevole delle distorsioni per migliorare ulteriormente la qualità della generazione nel processo di proiezione. Il nostro metodo supera gli approcci esistenti nella generazione di contenuti panoramici a 360 gradi mantenendo un'elevata fedeltà, rendendolo una soluzione robusta per applicazioni AR/VR immersive. Il codice è disponibile qui. https://github.com/pmh9960/SphereDiff

English

The increasing demand for AR/VR applications has highlighted the need for high-quality 360-degree panoramic content. However, generating high-quality 360-degree panoramic images and videos remains a challenging task due to the severe distortions introduced by equirectangular projection (ERP). Existing approaches either fine-tune pretrained diffusion models on limited ERP datasets or attempt tuning-free methods that still rely on ERP latent representations, leading to discontinuities near the poles. In this paper, we introduce SphereDiff, a novel approach for seamless 360-degree panoramic image and video generation using state-of-the-art diffusion models without additional tuning. We define a spherical latent representation that ensures uniform distribution across all perspectives, mitigating the distortions inherent in ERP. We extend MultiDiffusion to spherical latent space and propose a spherical latent sampling method to enable direct use of pretrained diffusion models. Moreover, we introduce distortion-aware weighted averaging to further improve the generation quality in the projection process. Our method outperforms existing approaches in generating 360-degree panoramic content while maintaining high fidelity, making it a robust solution for immersive AR/VR applications. The code is available here. https://github.com/pmh9960/SphereDiff

SphereDiff: Generazione di Immagini e Video Panoramici Omnidirezionali senza Ottimizzazione tramite Rappresentazione Latente Sferica

SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation

Abstract

Summary

Support

Support