SPF-Portrait: Verso una Personalizzazione Pura del Ritratto con Fine-tuning Libero da Inquinamento Semantico
SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning
April 1, 2025
Autori: Xiaole Xian, Zhichao Liao, Qingyu Li, Wenyu Qin, Pengfei Wan, Weicheng Xie, Long Zeng, Linlin Shen, Pingfa Feng
cs.AI
Abstract
Il fine-tuning di un modello pre-addestrato Text-to-Image (T2I) su un dataset di ritratti personalizzato è il metodo principale per la personalizzazione guidata da testo degli attributi dei ritratti. A causa dell'inquinamento semantico durante il fine-tuning, i metodi esistenti faticano a mantenere il comportamento originale del modello e a raggiungere un apprendimento incrementale durante la personalizzazione degli attributi target. Per affrontare questo problema, proponiamo SPF-Portrait, un lavoro pionieristico per comprendere puramente la semantica personalizzata eliminando l'inquinamento semantico nella personalizzazione dei ritratti guidata da testo. Nel nostro SPF-Portrait, proponiamo una pipeline a doppio percorso che introduce il modello originale come riferimento per il percorso convenzionale di fine-tuning. Attraverso l'apprendimento contrastivo, garantiamo l'adattamento agli attributi target e allineiamo intenzionalmente altri attributi non correlati con il ritratto originale. Introduciamo una nuova Mappa di Controllo Fine Semantica, che rappresenta le regioni di risposta precise della semantica target, per guidare spazialmente il processo di allineamento tra i percorsi contrastivi. Questo processo di allineamento non solo preserva efficacemente le prestazioni del modello originale, ma evita anche un eccessivo allineamento. Inoltre, proponiamo un nuovo meccanismo di potenziamento della risposta per rafforzare le prestazioni degli attributi target, mitigando al contempo la discrepanza di rappresentazione intrinseca nella supervisione cross-modale diretta. Esperimenti estensivi dimostrano che SPF-Portrait raggiunge prestazioni all'avanguardia. Pagina web del progetto: https://spf-portrait.github.io/SPF-Portrait/
English
Fine-tuning a pre-trained Text-to-Image (T2I) model on a tailored portrait
dataset is the mainstream method for text-driven customization of portrait
attributes. Due to Semantic Pollution during fine-tuning, existing methods
struggle to maintain the original model's behavior and achieve incremental
learning while customizing target attributes. To address this issue, we propose
SPF-Portrait, a pioneering work to purely understand customized semantics while
eliminating semantic pollution in text-driven portrait customization. In our
SPF-Portrait, we propose a dual-path pipeline that introduces the original
model as a reference for the conventional fine-tuning path. Through contrastive
learning, we ensure adaptation to target attributes and purposefully align
other unrelated attributes with the original portrait. We introduce a novel
Semantic-Aware Fine Control Map, which represents the precise response regions
of the target semantics, to spatially guide the alignment process between the
contrastive paths. This alignment process not only effectively preserves the
performance of the original model but also avoids over-alignment. Furthermore,
we propose a novel response enhancement mechanism to reinforce the performance
of target attributes, while mitigating representation discrepancy inherent in
direct cross-modal supervision. Extensive experiments demonstrate that
SPF-Portrait achieves state-of-the-art performance. Project webpage:
https://spf-portrait.github.io/SPF-Portrait/Summary
AI-Generated Summary