ChatPaper.aiChatPaper

RefVNLI: Naar schaalbare evaluatie van onderwerpgestuurde tekst-naar-beeldgeneratie

RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation

April 24, 2025
Auteurs: Aviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor
cs.AI

Samenvatting

Onderwerpgestuurde tekst-naar-beeld (T2I) generatie heeft als doel afbeeldingen te produceren die overeenkomen met een gegeven tekstuele beschrijving, terwijl de visuele identiteit van een referentiebeeld behouden blijft. Ondanks de brede toepasbaarheid ervan – variërend van verbeterde personalisatie in beeldgeneratie tot consistente karakterweergave in videorendering – wordt de vooruitgang in dit veld beperkt door het gebrek aan betrouwbare automatische evaluatie. Bestaande methoden beoordelen slechts één aspect van de taak (d.w.z. tekstuele uitlijning of onderwerpbehoud), komen niet overeen met menselijke beoordelingen, of zijn afhankelijk van kostbare API-gebaseerde evaluatie. Om dit aan te pakken, introduceren we RefVNLI, een kosteneffectieve metriek die zowel tekstuele uitlijning als onderwerpbehoud in één voorspelling evalueert. Getraind op een grootschalige dataset afgeleid van video-redeneerbenchmarks en beeldverstoringen, overtreft of evenaart RefVNLI bestaande baselines over meerdere benchmarks en onderwerpcategorieën (bijv. Dier, Object), met verbeteringen tot 6,4 punten in tekstuele uitlijning en 8,5 punten in onderwerpconsistentie. Het presteert ook uitstekend met minder bekende concepten, waarbij het in meer dan 87% van de gevallen overeenkomt met menselijke voorkeuren.
English
Subject-driven text-to-image (T2I) generation aims to produce images that align with a given textual description, while preserving the visual identity from a referenced subject image. Despite its broad downstream applicability -- ranging from enhanced personalization in image generation to consistent character representation in video rendering -- progress in this field is limited by the lack of reliable automatic evaluation. Existing methods either assess only one aspect of the task (i.e., textual alignment or subject preservation), misalign with human judgments, or rely on costly API-based evaluation. To address this, we introduce RefVNLI, a cost-effective metric that evaluates both textual alignment and subject preservation in a single prediction. Trained on a large-scale dataset derived from video-reasoning benchmarks and image perturbations, RefVNLI outperforms or matches existing baselines across multiple benchmarks and subject categories (e.g., Animal, Object), achieving up to 6.4-point gains in textual alignment and 8.5-point gains in subject consistency. It also excels with lesser-known concepts, aligning with human preferences at over 87\% accuracy.

Summary

AI-Generated Summary

PDF542April 25, 2025