ChatPaper.aiChatPaper

EasyRef: 다중 모달 LLM을 통한 확산 모델을 위한 Omni-일반화된 그룹 이미지 참조

EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM

December 12, 2024
저자: Zhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li
cs.AI

초록

개인화된 확산 모델의 중요한 성취들이 관찰되었습니다. 기존의 조정 필요 없는 방법은 대부분 다중 참조 이미지를 이미지 임베딩을 평균화하여 주입 조건으로 인코딩하지만, 이러한 이미지에 독립적인 작업은 이미지 간 상호 작용을 수행하여 여러 참조 내에서 일관된 시각적 요소를 포착할 수 없습니다. 조정 기반의 저랭크 적응 (LoRA)은 다중 이미지 내에서 일관된 요소를 효과적으로 추출할 수 있지만, 각각의 구별된 이미지 그룹에 대해 특정한 세부 조정이 필요합니다. 본 논문에서는 다중 참조 이미지와 텍스트 프롬프트에 의존하는 확산 모델의 적응 방법인 EasyRef를 소개합니다. 다중 이미지 내에서 일관된 시각적 요소를 효과적으로 활용하기 위해 우리는 다중 모달 대형 언어 모델 (MLLM)의 다중 이미지 이해 및 지시 따르기 능력을 활용하여 일관된 시각적 요소를 캡처하도록 유도합니다. 또한 MLLM의 표현을 어댑터를 통해 확산 과정에 주입함으로써 보이지 않는 도메인에 대해 쉽게 일반화할 수 있으며, 보이지 않는 데이터 내에서 일관된 시각적 요소를 채굴할 수 있습니다. 계산 비용을 줄이고 세밀한 세부 사항 보존을 향상시키기 위해 효율적인 참조 집계 전략과 점진적 훈련 체계를 소개합니다. 마지막으로, 새로운 다중 참조 이미지 생성 벤치마크인 MRBench를 소개합니다. 실험 결과는 EasyRef가 IP-Adapter와 LoRA와 같은 조정 필요 없는 방법과 조정 기반의 방법을 능가하여 다양한 도메인에서 우수한 미적 품질과 강력한 제로샷 일반화를 달성한다는 것을 입증합니다.
English
Significant achievements in personalization of diffusion models have been witnessed. Conventional tuning-free methods mostly encode multiple reference images by averaging their image embeddings as the injection condition, but such an image-independent operation cannot perform interaction among images to capture consistent visual elements within multiple references. Although the tuning-based Low-Rank Adaptation (LoRA) can effectively extract consistent elements within multiple images through the training process, it necessitates specific finetuning for each distinct image group. This paper introduces EasyRef, a novel plug-and-play adaptation method that enables diffusion models to be conditioned on multiple reference images and the text prompt. To effectively exploit consistent visual elements within multiple images, we leverage the multi-image comprehension and instruction-following capabilities of the multimodal large language model (MLLM), prompting it to capture consistent visual elements based on the instruction. Besides, injecting the MLLM's representations into the diffusion process through adapters can easily generalize to unseen domains, mining the consistent visual elements within unseen data. To mitigate computational costs and enhance fine-grained detail preservation, we introduce an efficient reference aggregation strategy and a progressive training scheme. Finally, we introduce MRBench, a new multi-reference image generation benchmark. Experimental results demonstrate EasyRef surpasses both tuning-free methods like IP-Adapter and tuning-based methods like LoRA, achieving superior aesthetic quality and robust zero-shot generalization across diverse domains.
PDF213December 13, 2024