MV-Adapter: Generazione Semplificata di Immagini Coerenti Multi-View
MV-Adapter: Multi-view Consistent Image Generation Made Easy
December 4, 2024
Autori: Zehuan Huang, Yuan-Chen Guo, Haoran Wang, Ran Yi, Lizhuang Ma, Yan-Pei Cao, Lu Sheng
cs.AI
Abstract
I metodi esistenti di generazione di immagini multi-view spesso apportano modifiche invasive ai modelli pre-addestrati di testo-immagine (T2I) e richiedono un completo riaddestramento, comportando (1) elevati costi computazionali, specialmente con modelli di base di grandi dimensioni e immagini ad alta risoluzione, e (2) degrado nella qualità dell'immagine a causa di difficoltà di ottimizzazione e scarsità di dati 3D di alta qualità. In questo articolo, proponiamo la prima soluzione basata su adattatori per la generazione di immagini multi-view e presentiamo MV-Adapter, un adattatore versatile plug-and-play che potenzia i modelli T2I e le loro derivate senza alterare la struttura di rete originale o lo spazio delle caratteristiche. Aggiornando un minor numero di parametri, MV-Adapter consente un addestramento efficiente e preserva le conoscenze pregresse incorporate nei modelli pre-addestrati, riducendo i rischi di overfitting. Per modellare efficientemente le conoscenze geometriche 3D all'interno dell'adattatore, introduciamo design innovativi che includono strati di auto-attenzione duplicati e un'architettura di attenzione parallela, consentendo all'adattatore di ereditare i potenti priors dei modelli pre-addestrati per modellare le nuove conoscenze 3D. Inoltre, presentiamo un codificatore di condizioni unificato che integra senza soluzione di continuità i parametri della fotocamera e le informazioni geometriche, facilitando applicazioni come la generazione 3D basata su testo e immagine e la texturizzazione. MV-Adapter raggiunge la generazione multi-view a risoluzione 768 su Stable Diffusion XL (SDXL) e dimostra adattabilità e versatilità. Può inoltre essere esteso alla generazione di visualizzazioni arbitrarie, consentendo applicazioni più ampie. Dimostriamo che MV-Adapter stabilisce un nuovo standard di qualità per la generazione di immagini multi-view e apre nuove possibilità grazie alla sua efficienza, adattabilità e versatilità.
English
Existing multi-view image generation methods often make invasive
modifications to pre-trained text-to-image (T2I) models and require full
fine-tuning, leading to (1) high computational costs, especially with large
base models and high-resolution images, and (2) degradation in image quality
due to optimization difficulties and scarce high-quality 3D data. In this
paper, we propose the first adapter-based solution for multi-view image
generation, and introduce MV-Adapter, a versatile plug-and-play adapter that
enhances T2I models and their derivatives without altering the original network
structure or feature space. By updating fewer parameters, MV-Adapter enables
efficient training and preserves the prior knowledge embedded in pre-trained
models, mitigating overfitting risks. To efficiently model the 3D geometric
knowledge within the adapter, we introduce innovative designs that include
duplicated self-attention layers and parallel attention architecture, enabling
the adapter to inherit the powerful priors of the pre-trained models to model
the novel 3D knowledge. Moreover, we present a unified condition encoder that
seamlessly integrates camera parameters and geometric information, facilitating
applications such as text- and image-based 3D generation and texturing.
MV-Adapter achieves multi-view generation at 768 resolution on Stable Diffusion
XL (SDXL), and demonstrates adaptability and versatility. It can also be
extended to arbitrary view generation, enabling broader applications. We
demonstrate that MV-Adapter sets a new quality standard for multi-view image
generation, and opens up new possibilities due to its efficiency, adaptability
and versatility.Summary
AI-Generated Summary