Nächstes Token reicht aus: Realistische Bildqualitäts- und Ästhetikbewertung mit Multimodalen Großen Sprachmodellen
Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model
March 8, 2025
Autoren: Mingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu
cs.AI
Zusammenfassung
Die rasche Ausbreitung des mobilen Internets hat zu einem erheblichen Anstieg von nutzergenerierten Inhalten (User-Generated Content, UGC) in Form von Bildern geführt, wodurch die umfassende Bewertung von UGC-Bildern dringend und essenziell geworden ist. Kürzlich haben multimodale große Sprachmodelle (Multimodal Large Language Models, MLLMs) großes Potenzial in der Bildqualitätsbewertung (Image Quality Assessment, IQA) und der ästhetischen Bildbewertung (Image Aesthetic Assessment, IAA) gezeigt. Trotz dieser Fortschritte gibt es bei der effektiven Bewertung der Qualität und Ästhetik von UGC-Bildern weiterhin zwei Hauptherausforderungen: 1) Eine einzelne Bewertung reicht nicht aus, um die hierarchische menschliche Wahrnehmung zu erfassen. 2) Es bleibt eine offene Frage, wie MLLMs numerische Bewertungen, wie z. B. mittlere Meinungswerte (Mean Opinion Scores, MOS), ausgeben können. Um diese Herausforderungen zu bewältigen, stellen wir einen neuartigen Datensatz namens Realistic Image Quality and Aesthetic (RealQA) vor, der 14.715 UGC-Bilder umfasst, von denen jedes mit 10 feingranularen Attributen annotiert ist. Diese Attribute erstrecken sich über drei Ebenen: niedrige Ebene (z. B. Bildschärfe), mittlere Ebene (z. B. Subjektintegrität) und hohe Ebene (z. B. Komposition). Darüber hinaus führen wir eine Reihe von vertieften und umfassenden Untersuchungen durch, wie numerische Bewertungen effektiv mit MLLMs vorhergesagt werden können. Überraschenderweise kann das Next-Token-Paradigma durch die Vorhersage von nur zwei zusätzlichen signifikanten Ziffern Spitzenleistungen (State-of-the-Art, SOTA) erzielen. Darüber hinaus kann die vorgeschlagene Methode mit Hilfe von Chain of Thought (CoT) in Kombination mit den erlernten feingranularen Attributen SOTA-Methoden auf fünf öffentlichen Datensätzen für IQA und IAA übertreffen, wobei sie eine überlegene Interpretierbarkeit aufweist und eine starke Zero-Shot-Generalisierung für die Videoqualitätsbewertung (Video Quality Assessment, VQA) zeigt. Der Code und der Datensatz werden veröffentlicht.
English
The rapid expansion of mobile internet has resulted in a substantial increase
in user-generated content (UGC) images, thereby making the thorough assessment
of UGC images both urgent and essential. Recently, multimodal large language
models (MLLMs) have shown great potential in image quality assessment (IQA) and
image aesthetic assessment (IAA). Despite this progress, effectively scoring
the quality and aesthetics of UGC images still faces two main challenges: 1) A
single score is inadequate to capture the hierarchical human perception. 2) How
to use MLLMs to output numerical scores, such as mean opinion scores (MOS),
remains an open question. To address these challenges, we introduce a novel
dataset, named Realistic image Quality and Aesthetic (RealQA), including 14,715
UGC images, each of which is annoted with 10 fine-grained attributes. These
attributes span three levels: low level (e.g., image clarity), middle level
(e.g., subject integrity) and high level (e.g., composition). Besides, we
conduct a series of in-depth and comprehensive investigations into how to
effectively predict numerical scores using MLLMs. Surprisingly, by predicting
just two extra significant digits, the next token paradigm can achieve SOTA
performance. Furthermore, with the help of chain of thought (CoT) combined with
the learnt fine-grained attributes, the proposed method can outperform SOTA
methods on five public datasets for IQA and IAA with superior interpretability
and show strong zero-shot generalization for video quality assessment (VQA).
The code and dataset will be released.Summary
AI-Generated Summary