Multimodale LLM's kunnen redeneren over esthetiek in zero-shot.

Samenvatting

We presenteren de eerste studie over hoe de redeneervaardigheid van Multimodale Taalmodelen (MLLM's) moet worden opgeroepen om de esthetiek van kunstwerken te evalueren. Om dit onderzoek te vergemakkelijken, construeren we MM-StyleBench, een nieuw hoogwaardig dataset voor het benchmarken van artistieke stijl. Vervolgens ontwikkelen we een principiële methode voor het modelleren van menselijke voorkeuren en voeren we een systematische correlatieanalyse uit tussen de reacties van MLLM's en menselijke voorkeur. Onze experimenten onthullen een inherent hallucinatieprobleem van MLLM's bij de evaluatie van kunst, geassocieerd met subjectiviteit van reacties. ArtCoT wordt voorgesteld, waarbij wordt aangetoond dat taaksplitsing specifiek voor kunst en het gebruik van concrete taal de redeneervaardigheid van MLLM's voor esthetiek verbeteren. Onze bevindingen bieden waardevolle inzichten in MLLM's voor kunst en kunnen ten goede komen aan een breed scala van toepassingen, zoals stijloverdracht en artistieke beeldgeneratie. Code beschikbaar op https://github.com/songrise/MLLM4Art.

English

We present the first study on how Multimodal LLMs' (MLLMs) reasoning ability shall be elicited to evaluate the aesthetics of artworks. To facilitate this investigation, we construct MM-StyleBench, a novel high-quality dataset for benchmarking artistic stylization. We then develop a principled method for human preference modeling and perform a systematic correlation analysis between MLLMs' responses and human preference. Our experiments reveal an inherent hallucination issue of MLLMs in art evaluation, associated with response subjectivity. ArtCoT is proposed, demonstrating that art-specific task decomposition and the use of concrete language boost MLLMs' reasoning ability for aesthetics. Our findings offer valuable insights into MLLMs for art and can benefit a wide range of downstream applications, such as style transfer and artistic image generation. Code available at https://github.com/songrise/MLLM4Art.

Multimodale LLM's kunnen redeneren over esthetiek in zero-shot.

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

Samenvatting

Support