Мультимодальные языковые модели могут рассуждать об эстетике в режиме нулевой настройки.
Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
January 15, 2025
Авторы: Ruixiang Jiang, Changwen Chen
cs.AI
Аннотация
Мы представляем первое исследование о том, как способность к рассуждению мультимодальных языковых моделей (MLLMs) может быть вызвана для оценки эстетики произведений искусства. Для облегчения этого исследования мы создаем MM-StyleBench, новый высококачественный набор данных для оценки художественной стилизации. Затем мы разрабатываем принципиальный метод моделирования предпочтений человека и проводим систематический анализ корреляции между ответами MLLMs и предпочтениями человека. Наши эксперименты раскрывают врожденную проблему галлюцинаций у MLLMs в оценке искусства, связанную с субъективностью ответов. Предлагается ArtCoT, демонстрирующий, что декомпозиция задач, специфичных для искусства, и использование конкретного языка повышают способность MLLMs к рассуждению об эстетике. Наши результаты предлагают ценные идеи о MLLMs для искусства и могут быть полезны для широкого спектра прикладных задач, таких как перенос стиля и генерация художественных изображений. Код доступен по адресу https://github.com/songrise/MLLM4Art.
English
We present the first study on how Multimodal LLMs' (MLLMs) reasoning ability
shall be elicited to evaluate the aesthetics of artworks. To facilitate this
investigation, we construct MM-StyleBench, a novel high-quality dataset for
benchmarking artistic stylization. We then develop a principled method for
human preference modeling and perform a systematic correlation analysis between
MLLMs' responses and human preference. Our experiments reveal an inherent
hallucination issue of MLLMs in art evaluation, associated with response
subjectivity. ArtCoT is proposed, demonstrating that art-specific task
decomposition and the use of concrete language boost MLLMs' reasoning ability
for aesthetics. Our findings offer valuable insights into MLLMs for art and can
benefit a wide range of downstream applications, such as style transfer and
artistic image generation. Code available at
https://github.com/songrise/MLLM4Art.Summary
AI-Generated Summary