RefVNLI: Auf dem Weg zu einer skalierbaren Bewertung der subjektgesteuerten Text-zu-Bild-Generierung
RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation
April 24, 2025
Autoren: Aviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor
cs.AI
Zusammenfassung
Die subjektgesteuerte Text-zu-Bild (T2I)-Generierung zielt darauf ab, Bilder zu erzeugen, die mit einer gegebenen Textbeschreibung übereinstimmen, während die visuelle Identität eines Referenzbildes beibehalten wird. Trotz der breiten Anwendungsmöglichkeiten – von verbesserter Personalisierung in der Bildgenerierung bis hin zu konsistenter Charakterdarstellung in der Videowiedergabe – wird der Fortschritt in diesem Bereich durch den Mangel an zuverlässiger automatischer Bewertung eingeschränkt. Bestehende Methoden bewerten entweder nur einen Aspekt der Aufgabe (d.h. Textausrichtung oder Subjekterhaltung), stimmen nicht mit menschlichen Urteilen überein oder stützen sich auf kostspielige API-basierte Bewertungen. Um dies zu beheben, führen wir RefVNLI ein, eine kosteneffiziente Metrik, die sowohl die Textausrichtung als auch die Subjekterhaltung in einer einzigen Vorhersage bewertet. RefVNLI, das auf einem groß angelegten Datensatz basiert, der aus Video-Ressourcen-Benchmarks und Bildstörungen abgeleitet wurde, übertrifft oder erreicht bestehende Baselines über mehrere Benchmarks und Subjektkategorien hinweg (z.B. Tier, Objekt) und erzielt Verbesserungen von bis zu 6,4 Punkten in der Textausrichtung und 8,5 Punkten in der Subjektkonsistenz. Es zeichnet sich auch bei weniger bekannten Konzepten aus und stimmt mit menschlichen Präferenzen mit einer Genauigkeit von über 87 % überein.
English
Subject-driven text-to-image (T2I) generation aims to produce images that
align with a given textual description, while preserving the visual identity
from a referenced subject image. Despite its broad downstream applicability --
ranging from enhanced personalization in image generation to consistent
character representation in video rendering -- progress in this field is
limited by the lack of reliable automatic evaluation. Existing methods either
assess only one aspect of the task (i.e., textual alignment or subject
preservation), misalign with human judgments, or rely on costly API-based
evaluation. To address this, we introduce RefVNLI, a cost-effective metric that
evaluates both textual alignment and subject preservation in a single
prediction. Trained on a large-scale dataset derived from video-reasoning
benchmarks and image perturbations, RefVNLI outperforms or matches existing
baselines across multiple benchmarks and subject categories (e.g.,
Animal, Object), achieving up to 6.4-point gains in textual
alignment and 8.5-point gains in subject consistency. It also excels with
lesser-known concepts, aligning with human preferences at over 87\% accuracy.Summary
AI-Generated Summary