ChatPaper.aiChatPaper

비디오-SALMONN-o1: 추론 강화 오디오-시각 대형 언어 모델

video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

February 17, 2025
저자: Guangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang
cs.AI

초록

최근 추론 최적화의 발전은 대형 언어 모델(LLM)의 능력을 크게 향상시켰지만, 추론을 개선하기 위한 기존 노력은 수학 문제 해결에 한정되어 시각적 그래픽 입력에 초점을 맞추어 일반 비디오 이해에 대한 더 넓은 응용을 간과해 왔습니다. 본 논문에서는 일반 비디오 이해 작업을 위해 설계된 최초의 오픈 소스 추론 강화 오디오-시각 LLM인 video-SALMONN-o1을 제안합니다. 추론 능력을 향상하기 위해 도전적인 오디오-시각 질문과 단계별 솔루션을 갖춘 추론 집중 데이터셋을 개발합니다. 또한, 다중 모달 입력에 맞춘 효율적인 단계 수준 보상 모델링을 달성하기 위해 대조적 단계 선택을 활용하는 프로세스 직접 선호 최적화(pDPO)를 제안합니다. 게다가, standup 코미디, 학술 발표 및 합성 비디오 감지와 같은 시나리오를 포함한 4,000개 이상의 고품질 전문가가 선별한 질문-답변 쌍을 특징으로 하는 최초의 추론 집중 비디오 이해 벤치마크인 RivaBench를 소개합니다. video-SALMONN-o1은 다양한 비디오 추론 벤치마크에서 LLaVA-OneVision 기준선에 비해 3-8% 정확도 향상을 달성합니다. 또한, pDPO는 RivaBench에서 지도된 세밀한 조정 모델에 비해 6-8%의 향상을 달성합니다. 향상된 추론은 video-SALMONN-o1이 제로샷 합성 비디오 감지 능력을 갖게 합니다.
English
While recent advancements in reasoning optimization have significantly enhanced the capabilities of large language models (LLMs), existing efforts to improve reasoning have been limited to solving mathematical problems and focusing on visual graphical inputs, neglecting broader applications in general video understanding.This paper proposes video-SALMONN-o1, the first open-source reasoning-enhanced audio-visual LLM designed for general video understanding tasks. To enhance its reasoning abilities, we develop a reasoning-intensive dataset featuring challenging audio-visual questions with step-by-step solutions. We also propose process direct preference optimization (pDPO), which leverages contrastive step selection to achieve efficient step-level reward modelling tailored for multimodal inputs. Additionally, we introduce RivaBench, the first reasoning-intensive video understanding benchmark, featuring over 4,000 high-quality, expert-curated question-answer pairs across scenarios such as standup comedy, academic presentations, and synthetic video detection. video-SALMONN-o1 achieves 3-8% accuracy improvements over the LLaVA-OneVision baseline across different video reasoning benchmarks. Besides, pDPO achieves 6-8% improvements compared to the supervised fine-tuning model on RivaBench. Enhanced reasoning enables video-SALMONN-o1 zero-shot synthetic video detection capabilities.

Summary

AI-Generated Summary

PDF82February 18, 2025