ChatPaper.aiChatPaper

자신을 상상해보세요: 튜닝이 필요 없는 개인화된 이미지 생성

Imagine yourself: Tuning-Free Personalized Image Generation

September 20, 2024
저자: Zecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Peter Vajda, Animesh Sinha
cs.AI

초록

확산 모델은 다양한 이미지 대 이미지 작업에서 놀라운 효능을 입증해왔습니다. 본 연구에서는 개인화된 이미지 생성을 위해 설계된 최첨단 모델 Imagine yourself을 소개합니다. 기존의 조정 기반 개인화 기술과는 달리, Imagine yourself은 조정 없이 작동하는 모델로, 모든 사용자가 개별적인 조정 없이 공유된 프레임워크를 활용할 수 있게 합니다. 더불어, 이전 연구에서는 신원 보존, 복잡한 프롬프트 따르기, 그리고 좋은 시각적 품질 보존이라는 도전에 직면하여, 참조 이미지의 강력한 복사-붙여넣기 효과를 갖는 모델이 나왔습니다. 따라서, 이러한 모델들은 참조 이미지를 크게 변경해야 하는 프롬프트를 따르는 이미지를 생성하기 어렵고, 예를 들어 얼굴 표정, 머리와 몸의 자세를 변경하는 것과 같은 변화를 필요로 하는 프롬프트를 따르는 이미지를 생성하기 어렵습니다. 이러한 한계를 극복하기 위해 우리의 제안된 방법은 1) 이미지 다양성을 촉진하기 위한 새로운 합성 페어 데이터 생성 메커니즘을 도입하고, 2) 텍스트 충실성을 향상시키기 위해 세 개의 텍스트 인코더와 완전히 학습 가능한 비전 인코더를 갖는 완전 병렬 어텐션 아키텍처, 그리고 3) 시각적 품질의 경계를 점진적으로 끌어올리는 새로운 과정별 세밀조정 방법론을 소개합니다. 우리의 연구는 Imagine yourself이 최첨단 개인화 모델을 능가하며, 신원 보존, 시각적 품질, 그리고 텍스트 정렬에서 우수한 능력을 보여준다는 것을 입증합니다. 이 모델은 다양한 개인화 응용 프로그램을 위한 견고한 기반을 확립합니다. 인간 평가 결과는 이 모델이 이전의 개인화 모델들과 비교했을 때 모든 측면(신원 보존, 텍스트 충실성, 시각적 매력)에서 최첨단 우위를 입증합니다.
English
Diffusion models have demonstrated remarkable efficacy across various image-to-image tasks. In this research, we introduce Imagine yourself, a state-of-the-art model designed for personalized image generation. Unlike conventional tuning-based personalization techniques, Imagine yourself operates as a tuning-free model, enabling all users to leverage a shared framework without individualized adjustments. Moreover, previous work met challenges balancing identity preservation, following complex prompts and preserving good visual quality, resulting in models having strong copy-paste effect of the reference images. Thus, they can hardly generate images following prompts that require significant changes to the reference image, \eg, changing facial expression, head and body poses, and the diversity of the generated images is low. To address these limitations, our proposed method introduces 1) a new synthetic paired data generation mechanism to encourage image diversity, 2) a fully parallel attention architecture with three text encoders and a fully trainable vision encoder to improve the text faithfulness, and 3) a novel coarse-to-fine multi-stage finetuning methodology that gradually pushes the boundary of visual quality. Our study demonstrates that Imagine yourself surpasses the state-of-the-art personalization model, exhibiting superior capabilities in identity preservation, visual quality, and text alignment. This model establishes a robust foundation for various personalization applications. Human evaluation results validate the model's SOTA superiority across all aspects (identity preservation, text faithfulness, and visual appeal) compared to the previous personalization models.

Summary

AI-Generated Summary

PDF716November 16, 2024