MV-어댑터: 다중 뷰 일관된 이미지 생성을 쉽게 만드는 방법
MV-Adapter: Multi-view Consistent Image Generation Made Easy
December 4, 2024
저자: Zehuan Huang, Yuan-Chen Guo, Haoran Wang, Ran Yi, Lizhuang Ma, Yan-Pei Cao, Lu Sheng
cs.AI
초록
기존의 다중 뷰 이미지 생성 방법은 종종 사전 훈련된 텍스트-이미지 (T2I) 모델에 침범적인 수정을 가하고 완전한 미세 조정을 필요로 하며, 이로 인해 (1) 대규모 기본 모델 및 고해상도 이미지와 같은 경우에는 특히 높은 계산 비용이 발생하고, (2) 최적화 어려움과 고품질 3D 데이터 부족으로 이미지 품질이 저하됩니다. 본 논문에서는 다중 뷰 이미지 생성을 위한 첫 번째 어댑터 기반 솔루션을 제안하고, T2I 모델 및 해당 파생물을 개선하는 다목적 플러그 앤 플레이 어댑터인 MV-어댑터를 소개합니다. 원래의 네트워크 구조나 특징 공간을 변경하지 않고 업데이트하는 더 적은 매개변수로 효율적인 훈련을 가능하게 하며, 사전 훈련된 모델에 내장된 이전 지식을 보존하여 과적합 위험을 완화합니다. 어댑터 내에서 3D 기하학적 지식을 효율적으로 모델링하기 위해, 중복된 셀프 어텐션 레이어와 병렬 어텐션 아키텍처를 포함하는 혁신적인 디자인을 소개하여 어댑터가 새로운 3D 지식을 모델링하는 데 사전 훈련된 모델의 강력한 사전 지식을 상속할 수 있도록 합니다. 또한, 카메라 매개변수와 기하학적 정보를 원활하게 통합하는 통합 조건 인코더를 제시하여 텍스트 및 이미지 기반 3D 생성 및 텍스처링과 같은 응용을 용이하게 합니다. MV-어댑터는 Stable Diffusion XL (SDXL)에서 768 해상도에서 다중 뷰 생성을 달성하며 적응성과 다양성을 시연합니다. 또한 임의의 뷰 생성으로 확장할 수 있어 보다 넓은 응용이 가능합니다. MV-어댑터가 다중 뷰 이미지 생성에 대한 새로운 품질 기준을 설정하고 효율성, 적응성 및 다양성으로 인해 새로운 가능성을 열어준다는 것을 입증합니다.
English
Existing multi-view image generation methods often make invasive
modifications to pre-trained text-to-image (T2I) models and require full
fine-tuning, leading to (1) high computational costs, especially with large
base models and high-resolution images, and (2) degradation in image quality
due to optimization difficulties and scarce high-quality 3D data. In this
paper, we propose the first adapter-based solution for multi-view image
generation, and introduce MV-Adapter, a versatile plug-and-play adapter that
enhances T2I models and their derivatives without altering the original network
structure or feature space. By updating fewer parameters, MV-Adapter enables
efficient training and preserves the prior knowledge embedded in pre-trained
models, mitigating overfitting risks. To efficiently model the 3D geometric
knowledge within the adapter, we introduce innovative designs that include
duplicated self-attention layers and parallel attention architecture, enabling
the adapter to inherit the powerful priors of the pre-trained models to model
the novel 3D knowledge. Moreover, we present a unified condition encoder that
seamlessly integrates camera parameters and geometric information, facilitating
applications such as text- and image-based 3D generation and texturing.
MV-Adapter achieves multi-view generation at 768 resolution on Stable Diffusion
XL (SDXL), and demonstrates adaptability and versatility. It can also be
extended to arbitrary view generation, enabling broader applications. We
demonstrate that MV-Adapter sets a new quality standard for multi-view image
generation, and opens up new possibilities due to its efficiency, adaptability
and versatility.Summary
AI-Generated Summary