Q-Eval-100K: Оценка визуального качества и уровня соответствия для контента, создаваемого из текста в изображение
Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content
March 4, 2025
Авторы: Zicheng Zhang, Tengchuan Kou, Shushi Wang, Chunyi Li, Wei Sun, Wei Wang, Xiaoyu Li, Zongyu Wang, Xuezhi Cao, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai
cs.AI
Аннотация
Оценка контента "текст-визуализация" основывается на двух ключевых аспектах: визуальное качество и соответствие. Хотя значительный прогресс был достигнут в разработке объективных моделей для оценки этих параметров, производительность таких моделей в значительной степени зависит от масштаба и качества аннотаций, выполненных людьми. Согласно Закону масштабирования, увеличение количества экземпляров, аннотированных людьми, следует предсказуемой закономерности, которая повышает производительность моделей оценки. Поэтому мы представляем всеобъемлющий набор данных, предназначенный для оценки визуального качества и уровня соответствия для контента "текст-визуализация" (Q-EVAL-100K), включающий крупнейшую коллекцию оценок Mean Opinion Scores (MOS), аннотированных людьми, для упомянутых двух аспектов. Набор данных Q-EVAL-100K охватывает как модели "текст-изображение", так и модели "текст-видео", с 960K человеческих аннотаций, специально сосредоточенных на визуальном качестве и соответствии для 100K экземпляров (60K изображений и 40K видео). Используя этот набор данных с контекстным промптом, мы предлагаем Q-Eval-Score, унифицированную модель, способную оценивать как визуальное качество, так и соответствие, с особыми улучшениями для обработки соответствия длинных текстовых промптов. Результаты экспериментов показывают, что предложенная Q-Eval-Score демонстрирует превосходную производительность как по визуальному качеству, так и по соответствию, с сильными возможностями обобщения на других бенчмарках. Эти результаты подчеркивают значительную ценность набора данных Q-EVAL-100K. Данные и коды будут доступны по адресу https://github.com/zzc-1998/Q-Eval.
English
Evaluating text-to-vision content hinges on two crucial aspects: visual
quality and alignment. While significant progress has been made in developing
objective models to assess these dimensions, the performance of such models
heavily relies on the scale and quality of human annotations. According to
Scaling Law, increasing the number of human-labeled instances follows a
predictable pattern that enhances the performance of evaluation models.
Therefore, we introduce a comprehensive dataset designed to Evaluate Visual
quality and Alignment Level for text-to-vision content (Q-EVAL-100K), featuring
the largest collection of human-labeled Mean Opinion Scores (MOS) for the
mentioned two aspects. The Q-EVAL-100K dataset encompasses both text-to-image
and text-to-video models, with 960K human annotations specifically focused on
visual quality and alignment for 100K instances (60K images and 40K videos).
Leveraging this dataset with context prompt, we propose Q-Eval-Score, a unified
model capable of evaluating both visual quality and alignment with special
improvements for handling long-text prompt alignment. Experimental results
indicate that the proposed Q-Eval-Score achieves superior performance on both
visual quality and alignment, with strong generalization capabilities across
other benchmarks. These findings highlight the significant value of the
Q-EVAL-100K dataset. Data and codes will be available at
https://github.com/zzc-1998/Q-Eval.Summary
AI-Generated Summary