Gepersonaliseerde tekst-naar-beeldgeneratie met auto-regressieve modellen
Personalized Text-to-Image Generation with Auto-Regressive Models
April 17, 2025
Auteurs: Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
cs.AI
Samenvatting
Gepersonaliseerde beeldgeneratie is naar voren gekomen als een cruciale toepassing binnen tekst-naar-beeldgeneratie, waardoor het mogelijk wordt om afbeeldingen te creëren met specifieke onderwerpen in diverse contexten. Hoewel diffusiemodellen dit domein hebben gedomineerd, blijven autoregressieve modellen, met hun uniforme architectuur voor tekst- en beeldmodellering, onderbelicht voor gepersonaliseerde beeldgeneratie. Dit artikel onderzoekt het potentieel van het optimaliseren van autoregressieve modellen voor gepersonaliseerde beeldgeneratie, waarbij gebruik wordt gemaakt van hun inherente multimodale mogelijkheden om deze taak uit te voeren. We stellen een tweefasige trainingsstrategie voor die de optimalisatie van tekstembeddingen combineert met het finetunen van transformer-lagen. Onze experimenten met het autoregressieve model laten zien dat deze methode vergelijkbare onderwerptrouw en promptvolging bereikt als de toonaangevende diffusiegebaseerde personalisatiemethoden. De resultaten benadrukken de effectiviteit van autoregressieve modellen in gepersonaliseerde beeldgeneratie en bieden een nieuwe richting voor toekomstig onderzoek op dit gebied.
English
Personalized image synthesis has emerged as a pivotal application in
text-to-image generation, enabling the creation of images featuring specific
subjects in diverse contexts. While diffusion models have dominated this
domain, auto-regressive models, with their unified architecture for text and
image modeling, remain underexplored for personalized image generation. This
paper investigates the potential of optimizing auto-regressive models for
personalized image synthesis, leveraging their inherent multimodal capabilities
to perform this task. We propose a two-stage training strategy that combines
optimization of text embeddings and fine-tuning of transformer layers. Our
experiments on the auto-regressive model demonstrate that this method achieves
comparable subject fidelity and prompt following to the leading diffusion-based
personalization methods. The results highlight the effectiveness of
auto-regressive models in personalized image generation, offering a new
direction for future research in this area.Summary
AI-Generated Summary