Multimodale LLM's kunnen redeneren over esthetiek in zero-shot.
Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
January 15, 2025
Auteurs: Ruixiang Jiang, Changwen Chen
cs.AI
Samenvatting
We presenteren de eerste studie over hoe de redeneervaardigheid van Multimodale Taalmodelen (MLLM's) moet worden opgeroepen om de esthetiek van kunstwerken te evalueren. Om dit onderzoek te vergemakkelijken, construeren we MM-StyleBench, een nieuw hoogwaardig dataset voor het benchmarken van artistieke stijl. Vervolgens ontwikkelen we een principiële methode voor het modelleren van menselijke voorkeuren en voeren we een systematische correlatieanalyse uit tussen de reacties van MLLM's en menselijke voorkeur. Onze experimenten onthullen een inherent hallucinatieprobleem van MLLM's bij de evaluatie van kunst, geassocieerd met subjectiviteit van reacties. ArtCoT wordt voorgesteld, waarbij wordt aangetoond dat taaksplitsing specifiek voor kunst en het gebruik van concrete taal de redeneervaardigheid van MLLM's voor esthetiek verbeteren. Onze bevindingen bieden waardevolle inzichten in MLLM's voor kunst en kunnen ten goede komen aan een breed scala van toepassingen, zoals stijloverdracht en artistieke beeldgeneratie. Code beschikbaar op https://github.com/songrise/MLLM4Art.
English
We present the first study on how Multimodal LLMs' (MLLMs) reasoning ability
shall be elicited to evaluate the aesthetics of artworks. To facilitate this
investigation, we construct MM-StyleBench, a novel high-quality dataset for
benchmarking artistic stylization. We then develop a principled method for
human preference modeling and perform a systematic correlation analysis between
MLLMs' responses and human preference. Our experiments reveal an inherent
hallucination issue of MLLMs in art evaluation, associated with response
subjectivity. ArtCoT is proposed, demonstrating that art-specific task
decomposition and the use of concrete language boost MLLMs' reasoning ability
for aesthetics. Our findings offer valuable insights into MLLMs for art and can
benefit a wide range of downstream applications, such as style transfer and
artistic image generation. Code available at
https://github.com/songrise/MLLM4Art.Summary
AI-Generated Summary