FiVA: Dataset di attributi visivi a grana fine per modelli di diffusione testo-immagine
FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models
December 10, 2024
Autori: Tong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein
cs.AI
Abstract
I recenti progressi nella generazione di testo in immagini hanno reso possibile la creazione di immagini di alta qualità con diverse applicazioni. Tuttavia, descrivere accuratamente attributi visivi desiderati può essere sfidante, specialmente per non esperti di arte e fotografia. Una soluzione intuitiva coinvolge l'adozione di attributi favorevoli dalle immagini di origine. I metodi attuali cercano di estrarre identità e stile dalle immagini di origine. Tuttavia, "stile" è un concetto ampio che include texture, colore ed elementi artistici, ma non copre altri attributi importanti come illuminazione e dinamiche. Inoltre, un'adattamento semplificato dello "stile" impedisce di combinare attributi multipli da diverse fonti in un'unica immagine generata. In questo lavoro, formuliamo un approccio più efficace per decomporre l'estetica di un'immagine in attributi visivi specifici, consentendo agli utenti di applicare caratteristiche come illuminazione, texture e dinamiche da diverse immagini. Per raggiungere questo obiettivo, abbiamo costruito il primo dataset di attributi visivi dettagliati (FiVA) a nostra conoscenza. Questo dataset FiVA presenta una tassonomia ben organizzata per gli attributi visivi e include circa 1 milione di immagini generate di alta qualità con annotazioni sugli attributi visivi. Sfruttando questo dataset, proponiamo un framework di adattamento di attributi visivi dettagliati (FiVA-Adapter), che decoppia e adatta attributi visivi da una o più immagini di origine in una generata. Questo approccio migliora la personalizzazione user-friendly, consentendo agli utenti di applicare selettivamente attributi desiderati per creare immagini che soddisfino le loro preferenze uniche e requisiti di contenuto specifici.
English
Recent advances in text-to-image generation have enabled the creation of
high-quality images with diverse applications. However, accurately describing
desired visual attributes can be challenging, especially for non-experts in art
and photography. An intuitive solution involves adopting favorable attributes
from the source images. Current methods attempt to distill identity and style
from source images. However, "style" is a broad concept that includes texture,
color, and artistic elements, but does not cover other important attributes
such as lighting and dynamics. Additionally, a simplified "style" adaptation
prevents combining multiple attributes from different sources into one
generated image. In this work, we formulate a more effective approach to
decompose the aesthetics of a picture into specific visual attributes, allowing
users to apply characteristics such as lighting, texture, and dynamics from
different images. To achieve this goal, we constructed the first fine-grained
visual attributes dataset (FiVA) to the best of our knowledge. This FiVA
dataset features a well-organized taxonomy for visual attributes and includes
around 1 M high-quality generated images with visual attribute annotations.
Leveraging this dataset, we propose a fine-grained visual attribute adaptation
framework (FiVA-Adapter), which decouples and adapts visual attributes from one
or more source images into a generated one. This approach enhances
user-friendly customization, allowing users to selectively apply desired
attributes to create images that meet their unique preferences and specific
content requirements.Summary
AI-Generated Summary