FiVA: Dataset di attributi visivi a grana fine per modelli di diffusione testo-immagine

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

December 10, 2024
Autori: Tong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein
cs.AI

Abstract

I recenti progressi nella generazione di testo in immagini hanno reso possibile la creazione di immagini di alta qualità con diverse applicazioni. Tuttavia, descrivere accuratamente attributi visivi desiderati può essere sfidante, specialmente per non esperti di arte e fotografia. Una soluzione intuitiva coinvolge l'adozione di attributi favorevoli dalle immagini di origine. I metodi attuali cercano di estrarre identità e stile dalle immagini di origine. Tuttavia, "stile" è un concetto ampio che include texture, colore ed elementi artistici, ma non copre altri attributi importanti come illuminazione e dinamiche. Inoltre, un'adattamento semplificato dello "stile" impedisce di combinare attributi multipli da diverse fonti in un'unica immagine generata. In questo lavoro, formuliamo un approccio più efficace per decomporre l'estetica di un'immagine in attributi visivi specifici, consentendo agli utenti di applicare caratteristiche come illuminazione, texture e dinamiche da diverse immagini. Per raggiungere questo obiettivo, abbiamo costruito il primo dataset di attributi visivi dettagliati (FiVA) a nostra conoscenza. Questo dataset FiVA presenta una tassonomia ben organizzata per gli attributi visivi e include circa 1 milione di immagini generate di alta qualità con annotazioni sugli attributi visivi. Sfruttando questo dataset, proponiamo un framework di adattamento di attributi visivi dettagliati (FiVA-Adapter), che decoppia e adatta attributi visivi da una o più immagini di origine in una generata. Questo approccio migliora la personalizzazione user-friendly, consentendo agli utenti di applicare selettivamente attributi desiderati per creare immagini che soddisfino le loro preferenze uniche e requisiti di contenuto specifici.
English
Recent advances in text-to-image generation have enabled the creation of high-quality images with diverse applications. However, accurately describing desired visual attributes can be challenging, especially for non-experts in art and photography. An intuitive solution involves adopting favorable attributes from the source images. Current methods attempt to distill identity and style from source images. However, "style" is a broad concept that includes texture, color, and artistic elements, but does not cover other important attributes such as lighting and dynamics. Additionally, a simplified "style" adaptation prevents combining multiple attributes from different sources into one generated image. In this work, we formulate a more effective approach to decompose the aesthetics of a picture into specific visual attributes, allowing users to apply characteristics such as lighting, texture, and dynamics from different images. To achieve this goal, we constructed the first fine-grained visual attributes dataset (FiVA) to the best of our knowledge. This FiVA dataset features a well-organized taxonomy for visual attributes and includes around 1 M high-quality generated images with visual attribute annotations. Leveraging this dataset, we propose a fine-grained visual attribute adaptation framework (FiVA-Adapter), which decouples and adapts visual attributes from one or more source images into a generated one. This approach enhances user-friendly customization, allowing users to selectively apply desired attributes to create images that meet their unique preferences and specific content requirements.

Summary

AI-Generated Summary

PDF202December 11, 2024