CoRe: 텍스트에서 이미지로의 개인화를 위한 문맥 규제 텍스트 임베딩 학습
CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization
August 28, 2024
저자: Feize Wu, Yun Pang, Junyi Zhang, Lianyu Pang, Jian Yin, Baoquan Zhao, Qing Li, Xudong Mao
cs.AI
초록
최근 텍스트-이미지 개인화 기술의 발전으로 사용자가 제공한 개념에 대한 고품질 및 제어 가능한 이미지 합성이 가능해졌습니다. 그러나 기존 방법은 여전히 신원 보존과 텍스트 정렬 사이의 균형을 유지하는 데 어려움을 겪고 있습니다. 저희의 접근 방식은 프롬프트에 맞게 정렬된 이미지를 생성하기 위해서는 프롬프트의 정확한 의미론적 이해가 필요하며, 이는 CLIP 텍스트 인코더 내에서 새로운 개념과 주변 문맥 토큰 간의 상호 작용을 정확하게 처리하는 것을 포함합니다. 이를 해결하기 위해, 우리는 새로운 개념을 텍스트 인코더의 입력 임베딩 공간에 적절하게 포함시킴으로써 기존 토큰들과의 원활한 통합을 가능케 하는 방법을 제안합니다. 우리는 새로운 개념의 텍스트 임베딩 학습을 강화하기 위해 Context Regularization (CoRe)을 도입합니다. 이는 프롬프트 내의 문맥 토큰을 정규화함으로써 새로운 개념의 텍스트 임베딩 학습을 강화합니다. 이는 새로운 개념의 텍스트 임베딩이 올바르게 학습되었을 때에만 프롬프트 내의 문맥 토큰에 대한 텍스트 인코더의 적절한 출력 벡터를 달성할 수 있다는 통찰에 기반합니다. CoRe는 해당 이미지를 생성하지 않고도 임의의 프롬프트에 적용할 수 있어 학습된 텍스트 임베딩의 일반화를 향상시킵니다. 또한 CoRe는 특정 프롬프트에 대한 생성을 더욱 향상시키기 위한 테스트 시 최적화 기술로 활용될 수 있습니다. 포괄적인 실험 결과는 우리의 방법이 신원 보존과 텍스트 정렬 모두에서 여러 기준선 방법을 능가함을 입증합니다. 코드는 공개적으로 제공될 예정입니다.
English
Recent advances in text-to-image personalization have enabled high-quality
and controllable image synthesis for user-provided concepts. However, existing
methods still struggle to balance identity preservation with text alignment.
Our approach is based on the fact that generating prompt-aligned images
requires a precise semantic understanding of the prompt, which involves
accurately processing the interactions between the new concept and its
surrounding context tokens within the CLIP text encoder. To address this, we
aim to embed the new concept properly into the input embedding space of the
text encoder, allowing for seamless integration with existing tokens. We
introduce Context Regularization (CoRe), which enhances the learning of the new
concept's text embedding by regularizing its context tokens in the prompt. This
is based on the insight that appropriate output vectors of the text encoder for
the context tokens can only be achieved if the new concept's text embedding is
correctly learned. CoRe can be applied to arbitrary prompts without requiring
the generation of corresponding images, thus improving the generalization of
the learned text embedding. Additionally, CoRe can serve as a test-time
optimization technique to further enhance the generations for specific prompts.
Comprehensive experiments demonstrate that our method outperforms several
baseline methods in both identity preservation and text alignment. Code will be
made publicly available.Summary
AI-Generated Summary