EasyRef: 다중 모달 LLM을 통한 확산 모델을 위한 Omni-일반화된 그룹 이미지 참조
EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM
December 12, 2024
저자: Zhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li
cs.AI
초록
개인화된 확산 모델의 중요한 성취들이 관찰되었습니다. 기존의 조정 필요 없는 방법은 대부분 다중 참조 이미지를 이미지 임베딩을 평균화하여 주입 조건으로 인코딩하지만, 이러한 이미지에 독립적인 작업은 이미지 간 상호 작용을 수행하여 여러 참조 내에서 일관된 시각적 요소를 포착할 수 없습니다. 조정 기반의 저랭크 적응 (LoRA)은 다중 이미지 내에서 일관된 요소를 효과적으로 추출할 수 있지만, 각각의 구별된 이미지 그룹에 대해 특정한 세부 조정이 필요합니다. 본 논문에서는 다중 참조 이미지와 텍스트 프롬프트에 의존하는 확산 모델의 적응 방법인 EasyRef를 소개합니다. 다중 이미지 내에서 일관된 시각적 요소를 효과적으로 활용하기 위해 우리는 다중 모달 대형 언어 모델 (MLLM)의 다중 이미지 이해 및 지시 따르기 능력을 활용하여 일관된 시각적 요소를 캡처하도록 유도합니다. 또한 MLLM의 표현을 어댑터를 통해 확산 과정에 주입함으로써 보이지 않는 도메인에 대해 쉽게 일반화할 수 있으며, 보이지 않는 데이터 내에서 일관된 시각적 요소를 채굴할 수 있습니다. 계산 비용을 줄이고 세밀한 세부 사항 보존을 향상시키기 위해 효율적인 참조 집계 전략과 점진적 훈련 체계를 소개합니다. 마지막으로, 새로운 다중 참조 이미지 생성 벤치마크인 MRBench를 소개합니다. 실험 결과는 EasyRef가 IP-Adapter와 LoRA와 같은 조정 필요 없는 방법과 조정 기반의 방법을 능가하여 다양한 도메인에서 우수한 미적 품질과 강력한 제로샷 일반화를 달성한다는 것을 입증합니다.
English
Significant achievements in personalization of diffusion models have been
witnessed. Conventional tuning-free methods mostly encode multiple reference
images by averaging their image embeddings as the injection condition, but such
an image-independent operation cannot perform interaction among images to
capture consistent visual elements within multiple references. Although the
tuning-based Low-Rank Adaptation (LoRA) can effectively extract consistent
elements within multiple images through the training process, it necessitates
specific finetuning for each distinct image group. This paper introduces
EasyRef, a novel plug-and-play adaptation method that enables diffusion models
to be conditioned on multiple reference images and the text prompt. To
effectively exploit consistent visual elements within multiple images, we
leverage the multi-image comprehension and instruction-following capabilities
of the multimodal large language model (MLLM), prompting it to capture
consistent visual elements based on the instruction. Besides, injecting the
MLLM's representations into the diffusion process through adapters can easily
generalize to unseen domains, mining the consistent visual elements within
unseen data. To mitigate computational costs and enhance fine-grained detail
preservation, we introduce an efficient reference aggregation strategy and a
progressive training scheme. Finally, we introduce MRBench, a new
multi-reference image generation benchmark. Experimental results demonstrate
EasyRef surpasses both tuning-free methods like IP-Adapter and tuning-based
methods like LoRA, achieving superior aesthetic quality and robust zero-shot
generalization across diverse domains.