ChatPaper.aiChatPaper

오로라캡: 효율적이고 성능이 우수한 비디오 자세한 캡션 및 새로운 벤치마크

AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark

October 4, 2024
저자: Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning
cs.AI

초록

비디오 자세한 자막은 비디오 콘텐츠의 포괄적이고 일관된 텍스트 설명을 생성하는 주요 작업으로, 비디오 이해와 생성 양쪽에 혜택을 주고 있습니다. 본 논문에서는 대규모 다중 모달 모델을 기반으로 한 비디오 자막 생성기인 AuroraCap을 제안합니다. 우리는 시간적 모델링을 위한 추가 매개변수 없이 가장 간단한 아키텍처 설계를 따릅니다. 긴 비디오 시퀀스로 인한 오버헤드를 해결하기 위해 토큰 병합 전략을 구현하여 입력 시각적 토큰의 수를 줄입니다. 놀랍게도, 이 전략이 성능 손실이 거의 없다는 것을 발견했습니다. AuroraCap은 다양한 비디오 및 이미지 자막 벤치마크에서 우수한 성능을 보여주며, 예를 들어, Flickr30k에서 88.9의 CIDEr를 획득하여 GPT-4V(55.3)와 Gemini-1.5 Pro(82.2)를 이겼습니다. 그러나 기존의 비디오 자막 벤치마크는 몇십 단어로 구성된 간단한 설명만 포함하고 있어 이 분야의 연구를 제한하고 있습니다. 따라서, 우리는 1,000개 이상의 신중하게 주석이 달린 구조화된 자막을 가진 비디오 자세한 자막 벤치마크인 VDC를 개발했습니다. 더불어, 평가를 개선하기 위해 새로운 LLM 보조 메트릭인 VDCscore를 제안하였는데, 이는 긴 자막 평가를 여러 짧은 질문-답변 쌍으로 변환하기 위한 분할 정복 전략을 채택합니다. 인간 Elo 순위의 도움을 받아, 우리 실험은 이 벤치마크가 비디오 자세한 자막 품질에 대한 인간 판단과 더 잘 상관되는 것을 보여줍니다.
English
Video detailed captioning is a key task which aims to generate comprehensive and coherent textual descriptions of video content, benefiting both video understanding and generation. In this paper, we propose AuroraCap, a video captioner based on a large multimodal model. We follow the simplest architecture design without additional parameters for temporal modeling. To address the overhead caused by lengthy video sequences, we implement the token merging strategy, reducing the number of input visual tokens. Surprisingly, we found that this strategy results in little performance loss. AuroraCap shows superior performance on various video and image captioning benchmarks, for example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include simple descriptions, consisting of a few dozen words, which limits research in this field. Therefore, we develop VDC, a video detailed captioning benchmark with over one thousand carefully annotated structured captions. In addition, we propose a new LLM-assisted metric VDCscore for bettering evaluation, which adopts a divide-and-conquer strategy to transform long caption evaluation into multiple short question-answer pairs. With the help of human Elo ranking, our experiments show that this benchmark better correlates with human judgments of video detailed captioning quality.

Summary

AI-Generated Summary

PDF62November 16, 2024