PPLLaVA: 프롬프트 지도를 활용한 다양한 비디오 시퀀스 이해

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

November 4, 2024
저자: Ruyang Liu, Haoran Tang, Haibo Liu, Yixiao Ge, Ying Shan, Chen Li, Jiankun Yang
cs.AI

초록

작년은 비디오 기반 대규모 언어 모델의 중요한 발전을 목격했습니다. 그러나 짧은 비디오와 긴 비디오 이해를 위한 통합 모델 개발의 어려움은 여전히 해결되지 않은 문제입니다. 대부분의 기존 비디오 언어 모델은 한 시간 이상의 비디오를 처리할 수 없으며, 긴 비디오에 맞춤화된 방법은 짧은 비디오와 이미지에 대해 비효율적일 수 있습니다. 본 논문에서는 비디오 내 중복 콘텐츠를 주요 문제로 파악합니다. 이를 해결하기 위해 토큰 압축과 명령어 인식 비주얼 특징 집계를 동시에 달성하는 새로운 풀링 전략을 제안합니다. 우리의 모델은 Prompt-guided Pooling LLaVA 또는 PPLLaVA로 명명되었습니다. 구체적으로, PPLLaVA는 CLIP 기반 비주얼-프롬프트 정렬을 포함하며 사용자 지시와 관련된 비주얼 정보를 추출합니다. 비주얼 시퀀스를 임의의 스케일로 압축하는 프롬프트 지원 풀링과 비주얼 대화에서 흔한 긴 프롬프트를 위해 설계된 클립 컨텍스트 확장으로 구성됩니다. 더불어, 우리의 코드베이스는 가장 최신의 비디오 직접 선호 최적화(DPO) 및 비주얼 교차 훈련을 통합하고 있습니다. 광범위한 실험을 통해 우리 모델의 성능이 검증되었습니다. 우수한 처리량과 1024 비주얼 컨텍스트만으로 PPLLaVA는 비디오 언어 모델로서 이미지 벤치마크에서 더 나은 결과를 달성하면서 다양한 비디오 벤치마크에서 최첨단 성능을 보여주며, 캡션 생성부터 객관식 질문에 이르기까지 다양한 작업에서 뛰어난 성과를 거두고 초부터 시간까지의 비디오 길이를 처리합니다. 코드는 https://github.com/farewellthree/PPLLaVA에서 사용할 수 있습니다.
English
The past year has witnessed the significant advancement of video-based large language models. However, the challenge of developing a unified model for both short and long video understanding remains unresolved. Most existing video LLMs cannot handle hour-long videos, while methods custom for long videos tend to be ineffective for shorter videos and images. In this paper, we identify the key issue as the redundant content in videos. To address this, we propose a novel pooling strategy that simultaneously achieves token compression and instruction-aware visual feature aggregation. Our model is termed Prompt-guided Pooling LLaVA, or PPLLaVA for short. Specifically, PPLLaVA consists of three core components: the CLIP-based visual-prompt alignment that extracts visual information relevant to the user's instructions, the prompt-guided pooling that compresses the visual sequence to arbitrary scales using convolution-style pooling, and the clip context extension designed for lengthy prompt common in visual dialogue. Moreover, our codebase also integrates the most advanced video Direct Preference Optimization (DPO) and visual interleave training. Extensive experiments have validated the performance of our model. With superior throughput and only 1024 visual context, PPLLaVA achieves better results on image benchmarks as a video LLM, while achieving state-of-the-art performance across various video benchmarks, excelling in tasks ranging from caption generation to multiple-choice questions, and handling video lengths from seconds to hours. Codes have been available at https://github.com/farewellthree/PPLLaVA.

Summary

AI-Generated Summary

PDF111November 13, 2024