MV-Adapter: Generazione Semplificata di Immagini Coerenti Multi-View

Abstract

I metodi esistenti di generazione di immagini multi-view spesso apportano modifiche invasive ai modelli pre-addestrati di testo-immagine (T2I) e richiedono un completo riaddestramento, comportando (1) elevati costi computazionali, specialmente con modelli di base di grandi dimensioni e immagini ad alta risoluzione, e (2) degrado nella qualità dell'immagine a causa di difficoltà di ottimizzazione e scarsità di dati 3D di alta qualità. In questo articolo, proponiamo la prima soluzione basata su adattatori per la generazione di immagini multi-view e presentiamo MV-Adapter, un adattatore versatile plug-and-play che potenzia i modelli T2I e le loro derivate senza alterare la struttura di rete originale o lo spazio delle caratteristiche. Aggiornando un minor numero di parametri, MV-Adapter consente un addestramento efficiente e preserva le conoscenze pregresse incorporate nei modelli pre-addestrati, riducendo i rischi di overfitting. Per modellare efficientemente le conoscenze geometriche 3D all'interno dell'adattatore, introduciamo design innovativi che includono strati di auto-attenzione duplicati e un'architettura di attenzione parallela, consentendo all'adattatore di ereditare i potenti priors dei modelli pre-addestrati per modellare le nuove conoscenze 3D. Inoltre, presentiamo un codificatore di condizioni unificato che integra senza soluzione di continuità i parametri della fotocamera e le informazioni geometriche, facilitando applicazioni come la generazione 3D basata su testo e immagine e la texturizzazione. MV-Adapter raggiunge la generazione multi-view a risoluzione 768 su Stable Diffusion XL (SDXL) e dimostra adattabilità e versatilità. Può inoltre essere esteso alla generazione di visualizzazioni arbitrarie, consentendo applicazioni più ampie. Dimostriamo che MV-Adapter stabilisce un nuovo standard di qualità per la generazione di immagini multi-view e apre nuove possibilità grazie alla sua efficienza, adattabilità e versatilità.

English

Existing multi-view image generation methods often make invasive modifications to pre-trained text-to-image (T2I) models and require full fine-tuning, leading to (1) high computational costs, especially with large base models and high-resolution images, and (2) degradation in image quality due to optimization difficulties and scarce high-quality 3D data. In this paper, we propose the first adapter-based solution for multi-view image generation, and introduce MV-Adapter, a versatile plug-and-play adapter that enhances T2I models and their derivatives without altering the original network structure or feature space. By updating fewer parameters, MV-Adapter enables efficient training and preserves the prior knowledge embedded in pre-trained models, mitigating overfitting risks. To efficiently model the 3D geometric knowledge within the adapter, we introduce innovative designs that include duplicated self-attention layers and parallel attention architecture, enabling the adapter to inherit the powerful priors of the pre-trained models to model the novel 3D knowledge. Moreover, we present a unified condition encoder that seamlessly integrates camera parameters and geometric information, facilitating applications such as text- and image-based 3D generation and texturing. MV-Adapter achieves multi-view generation at 768 resolution on Stable Diffusion XL (SDXL), and demonstrates adaptability and versatility. It can also be extended to arbitrary view generation, enabling broader applications. We demonstrate that MV-Adapter sets a new quality standard for multi-view image generation, and opens up new possibilities due to its efficiency, adaptability and versatility.

MV-Adapter: Generazione Semplificata di Immagini Coerenti Multi-View

MV-Adapter: Multi-view Consistent Image Generation Made Easy

Abstract

Support