RefVNLI : Vers une évaluation évolutive de la génération d'images à partir de texte pilotée par un sujet
RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation
April 24, 2025
Auteurs: Aviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor
cs.AI
Résumé
La génération d'images à partir de texte pilotée par un sujet (T2I) vise à produire des images qui s'alignent sur une description textuelle donnée, tout en préservant l'identité visuelle d'une image de référence. Malgré son applicabilité étendue en aval — allant de la personnalisation améliorée dans la génération d'images à la représentation cohérente de personnages dans le rendu vidéo — les progrès dans ce domaine sont limités par l'absence d'évaluation automatique fiable. Les méthodes existantes évaluent soit un seul aspect de la tâche (c'est-à-dire l'alignement textuel ou la préservation du sujet), soit ne correspondent pas aux jugements humains, soit reposent sur des évaluations coûteuses basées sur des API. Pour remédier à cela, nous introduisons RefVNLI, une métrique économique qui évalue à la fois l'alignement textuel et la préservation du sujet en une seule prédiction. Entraîné sur un jeu de données à grande échelle dérivé de benchmarks de raisonnement vidéo et de perturbations d'images, RefVNLI surpasse ou égale les baselines existantes sur plusieurs benchmarks et catégories de sujets (par exemple, Animal, Objet), atteignant des gains allant jusqu'à 6,4 points en alignement textuel et 8,5 points en cohérence du sujet. Il excelle également avec des concepts moins connus, s'alignant sur les préférences humaines avec une précision supérieure à 87 %.
English
Subject-driven text-to-image (T2I) generation aims to produce images that
align with a given textual description, while preserving the visual identity
from a referenced subject image. Despite its broad downstream applicability --
ranging from enhanced personalization in image generation to consistent
character representation in video rendering -- progress in this field is
limited by the lack of reliable automatic evaluation. Existing methods either
assess only one aspect of the task (i.e., textual alignment or subject
preservation), misalign with human judgments, or rely on costly API-based
evaluation. To address this, we introduce RefVNLI, a cost-effective metric that
evaluates both textual alignment and subject preservation in a single
prediction. Trained on a large-scale dataset derived from video-reasoning
benchmarks and image perturbations, RefVNLI outperforms or matches existing
baselines across multiple benchmarks and subject categories (e.g.,
Animal, Object), achieving up to 6.4-point gains in textual
alignment and 8.5-point gains in subject consistency. It also excels with
lesser-known concepts, aligning with human preferences at over 87\% accuracy.Summary
AI-Generated Summary