ChatPaper.aiChatPaper

합성 데이터를 활용한 비디오 지시 조정

Video Instruction Tuning With Synthetic Data

October 3, 2024
저자: Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li
cs.AI

초록

비디오 대규모 다중 모달 모델(LMMs)의 개발은 웹에서 대량의 고품질 원시 데이터를 수집하는 어려움으로 인해 제약을 받았습니다. 이에 대응하기 위해, 우리는 비디오 지시 따르기를 위해 특별히 만든 고품질 합성 데이터셋인 LLaVA-Video-178K를 생성함으로써 대안적인 접근 방식을 제안합니다. 이 데이터셋에는 자세한 캡션, 개방형 질문 응답(QA), 그리고 객관식 QA와 같은 주요 작업이 포함되어 있습니다. 이 데이터셋으로 학습하고 기존의 시각적 지시 튜닝 데이터와 결합하여, 우리는 새로운 비디오 LMM인 LLaVA-Video를 소개합니다. 실험 결과는 LLaVA-Video가 다양한 비디오 벤치마크에서 강력한 성능을 달성하며, 우리 데이터셋의 효과를 강조합니다. 우리는 데이터셋, 생성 파이프라인, 그리고 모델 체크포인트를 공개할 계획입니다.
English
The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset specifically for video instruction-following, namely LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning, open-ended question-answering (QA), and multiple-choice QA. By training on this dataset, in combination with existing visual instruction tuning data, we introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that LLaVA-Video achieves strong performance across various video benchmarks, highlighting the effectiveness of our dataset. We plan to release the dataset, its generation pipeline, and the model checkpoints.

Summary

AI-Generated Summary

PDF393November 16, 2024