다중 모달 LLM은 제로샷으로 미학에 대해 추론할 수 있습니다.
Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
January 15, 2025
저자: Ruixiang Jiang, Changwen Chen
cs.AI
초록
다중 모달 LLM(Multimodal LLMs)의 추론 능력이 미술 작품의 미적 가치를 평가하기 위해 어떻게 유도되어야 하는지에 대한 첫 번째 연구를 제시합니다. 이 조사를 용이하게 하기 위해 예술적 스타일화를 벤치마킹하기 위한 혁신적인 고품질 데이터셋인 MM-StyleBench를 구축합니다. 그런 다음 인간 선호 모델링을 위한 원칙에 입각한 방법론을 개발하고, 다중 모달 LLM의 응답과 인간 선호 사이의 체계적 상관 분석을 수행합니다. 실험 결과, 미술 평가에서 다중 모달 LLM의 내재적 환각 문제가 드러나며, 이는 응답 주관성과 관련이 있습니다. 미술 특화 작업 분해와 구체적 언어 사용이 다중 모달 LLM의 미적 가치 추론 능력을 향상시키는 것을 증명하기 위해 ArtCoT가 제안되었습니다. 우리의 연구 결과는 미술에 대한 다중 모달 LLM의 소중한 통찰을 제공하며, 스타일 전이와 예술적 이미지 생성과 같은 다양한 하위 응용 프로그램에 혜택을 줄 수 있습니다. 코드는 https://github.com/songrise/MLLM4Art에서 확인할 수 있습니다.
English
We present the first study on how Multimodal LLMs' (MLLMs) reasoning ability
shall be elicited to evaluate the aesthetics of artworks. To facilitate this
investigation, we construct MM-StyleBench, a novel high-quality dataset for
benchmarking artistic stylization. We then develop a principled method for
human preference modeling and perform a systematic correlation analysis between
MLLMs' responses and human preference. Our experiments reveal an inherent
hallucination issue of MLLMs in art evaluation, associated with response
subjectivity. ArtCoT is proposed, demonstrating that art-specific task
decomposition and the use of concrete language boost MLLMs' reasoning ability
for aesthetics. Our findings offer valuable insights into MLLMs for art and can
benefit a wide range of downstream applications, such as style transfer and
artistic image generation. Code available at
https://github.com/songrise/MLLM4Art.Summary
AI-Generated Summary