Мультимодальные языковые модели могут рассуждать об эстетике в режиме нулевой настройки.

Аннотация

Мы представляем первое исследование о том, как способность к рассуждению мультимодальных языковых моделей (MLLMs) может быть вызвана для оценки эстетики произведений искусства. Для облегчения этого исследования мы создаем MM-StyleBench, новый высококачественный набор данных для оценки художественной стилизации. Затем мы разрабатываем принципиальный метод моделирования предпочтений человека и проводим систематический анализ корреляции между ответами MLLMs и предпочтениями человека. Наши эксперименты раскрывают врожденную проблему галлюцинаций у MLLMs в оценке искусства, связанную с субъективностью ответов. Предлагается ArtCoT, демонстрирующий, что декомпозиция задач, специфичных для искусства, и использование конкретного языка повышают способность MLLMs к рассуждению об эстетике. Наши результаты предлагают ценные идеи о MLLMs для искусства и могут быть полезны для широкого спектра прикладных задач, таких как перенос стиля и генерация художественных изображений. Код доступен по адресу https://github.com/songrise/MLLM4Art.

English

We present the first study on how Multimodal LLMs' (MLLMs) reasoning ability shall be elicited to evaluate the aesthetics of artworks. To facilitate this investigation, we construct MM-StyleBench, a novel high-quality dataset for benchmarking artistic stylization. We then develop a principled method for human preference modeling and perform a systematic correlation analysis between MLLMs' responses and human preference. Our experiments reveal an inherent hallucination issue of MLLMs in art evaluation, associated with response subjectivity. ArtCoT is proposed, demonstrating that art-specific task decomposition and the use of concrete language boost MLLMs' reasoning ability for aesthetics. Our findings offer valuable insights into MLLMs for art and can benefit a wide range of downstream applications, such as style transfer and artistic image generation. Code available at https://github.com/songrise/MLLM4Art.

Мультимодальные языковые модели могут рассуждать об эстетике в режиме нулевой настройки.

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

Аннотация

Support