ChatPaper.aiChatPaper

AV-Odyssey Bench: 여러 모달 LLMs가 정말 오디오-시각 정보를 이해할 수 있을까요?

AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?

December 3, 2024
저자: Kaixiong Gong, Kaituo Feng, Bohao Li, Yibing Wang, Mofan Cheng, Shijia Yang, Jiaming Han, Benyou Wang, Yutong Bai, Zhuoran Yang, Xiangyu Yue
cs.AI

초록

최근에는 GPT-4o, Gemini 1.5 Pro, 그리고 Reka Core와 같은 다중 모달 대형 언어 모델(MLLMs)이 시각 및 음향 모드를 포함한 기능을 확장했습니다. 이러한 모델들은 다양한 음향-시각 응용 프로그램에서 인상적인 성능을 보여주지만, 우리가 제안하는 DeafTest는 MLLMs이 종종 인간이 사소하게 여기는 간단한 작업에 어려움을 겪는 것을 보여줍니다: 1) 두 소리 중 어느 소리가 더 큰지 결정하는 것, 그리고 2) 두 소리 중 어느 소리가 더 높은 음높이를 가지는지 결정하는 것입니다. 이러한 관찰을 바탕으로, 우리는 AV-Odyssey Bench를 소개합니다. 이는 이러한 MLLMs이 음향-시각 정보를 실제로 이해할 수 있는지 평가하기 위해 설계된 포괄적인 음향-시각 벤치마크입니다. 이 벤치마크는 텍스트, 시각, 그리고 음향 구성 요소를 모두 포함하는 각각 4,555개의 신중하게 설계된 문제를 포함합니다. 모델이 정답을 올바르게 추론하기 위해서는 시각 및 음향 입력에서 나타나는 단서를 효과적으로 활용해야 합니다. MLLM 응답을 정확하고 객관적으로 평가하기 위해 우리는 질문을 객관식으로 구성하여 인간 평가나 LLM 지원 평가의 필요성을 제거했습니다. 우리는 일련의 폐쇄 소스 및 오픈 소스 모델을 벤치마킹하고 관찰을 요약했습니다. 현재 모델의 한계를 밝혀 나가면서, 미래 데이터셋 수집 및 모델 개발에 유용한 통찰을 제공하는 것을 목표로 합니다.
English
Recently, multimodal large language models (MLLMs), such as GPT-4o, Gemini 1.5 Pro, and Reka Core, have expanded their capabilities to include vision and audio modalities. While these models demonstrate impressive performance across a wide range of audio-visual applications, our proposed DeafTest reveals that MLLMs often struggle with simple tasks humans find trivial: 1) determining which of two sounds is louder, and 2) determining which of two sounds has a higher pitch. Motivated by these observations, we introduce AV-Odyssey Bench, a comprehensive audio-visual benchmark designed to assess whether those MLLMs can truly understand the audio-visual information. This benchmark encompasses 4,555 carefully crafted problems, each incorporating text, visual, and audio components. To successfully infer answers, models must effectively leverage clues from both visual and audio inputs. To ensure precise and objective evaluation of MLLM responses, we have structured the questions as multiple-choice, eliminating the need for human evaluation or LLM-assisted assessment. We benchmark a series of closed-source and open-source models and summarize the observations. By revealing the limitations of current models, we aim to provide useful insight for future dataset collection and model development.

Summary

AI-Generated Summary

PDF242December 4, 2024