LoRA.rar: 하이퍼네트워크를 통해 주제-스타일 조건 이미지 생성을 위한 LoRA 병합 학습
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
December 6, 2024
저자: Donald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli
cs.AI
초록
이미지 생성 모델의 최근 발전으로 사용자 정의 주제(콘텐츠)와 스타일을 모두 갖춘 개인화된 이미지 생성이 가능해졌습니다. 이전 연구는 최적화 기반 방법을 통해 해당하는 저랭크 적응 매개변수(LoRAs)를 병합하여 개인화를 달성했으나, 이는 계산적으로 요구가 많아 스마트폰과 같은 자원 제약 장치에서 실시간 사용에 부적합합니다. 이에 우리는 LoRA.rar를 소개하여 이미지 품질을 향상시키는 동시에 병합 과정에서 4000배 이상의 놀라운 가속을 달성하는 방법을 제시합니다. LoRA.rar은 다양한 콘텐츠-스타일 LoRA 쌍에 대해 하이퍼네트워크를 사전 훈련시키며, 새로운 보이지 않는 콘텐츠-스타일 쌍에 일반화되는 효율적인 병합 전략을 학습하여 빠르고 고품질의 개인화를 가능케 합니다. 더불어, 우리는 콘텐츠-스타일 품질에 대한 기존 평가 메트릭의 한계를 확인하고, 보다 정확한 평가를 위해 다중 모달 대형 언어 모델(MLLM)을 사용하는 새로운 프로토콜을 제안합니다. 우리의 방법은 MLLM 평가 및 인간 평가를 통해 콘텐츠와 스타일 충실도 모두에서 현재의 최첨단 기술을 크게 능가합니다.
English
Recent advancements in image generation models have enabled personalized
image creation with both user-defined subjects (content) and styles. Prior
works achieved personalization by merging corresponding low-rank adaptation
parameters (LoRAs) through optimization-based methods, which are
computationally demanding and unsuitable for real-time use on
resource-constrained devices like smartphones. To address this, we introduce
LoRA.rar, a method that not only improves image quality but also achieves a
remarkable speedup of over 4000times in the merging process. LoRA.rar
pre-trains a hypernetwork on a diverse set of content-style LoRA pairs,
learning an efficient merging strategy that generalizes to new, unseen
content-style pairs, enabling fast, high-quality personalization. Moreover, we
identify limitations in existing evaluation metrics for content-style quality
and propose a new protocol using multimodal large language models (MLLM) for
more accurate assessment. Our method significantly outperforms the current
state of the art in both content and style fidelity, as validated by MLLM
assessments and human evaluations.Summary
AI-Generated Summary