비디오 ICL: 분포 이외의 비디오 이해를 위한 확신 기반 반복적 맥락 학습
VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding
December 3, 2024
저자: Kangsan Kim, Geon Park, Youngwan Lee, Woongyeong Yeo, Sung Ju Hwang
cs.AI
초록
최근 비디오 대규모 다중 모달 모델(LMMs)의 발전은 비디오 이해 및 추론 능력을 크게 향상시켰습니다. 그러나 이러한 모델은 훈련 데이터에서 소수인 OOD(분포 밖) 작업에서 성능이 떨어집니다. OOD 데이터셋에서 미세 조정하는 등의 전통적인 방법은 계산 비용이 높아 적용하기 어렵습니다. ICL(인-컨텍스트 학습)은 언어 작업 및 이미지-언어 작업에서 미세 조정 없이 일반화 성능을 보여주었지만, 비디오-언어 작업에 ICL을 적용하는 것은 비디오 LMMs에서 제한된 문맥 길이로 인해 어려움이 있습니다. 이러한 문제를 해결하기 위해 우리는 OOD 작업을 위한 혁신적인 비디오 인-컨텍스트 학습 프레임워크인 VideoICL을 제안합니다. 이 프레임워크는 유사성 기반의 관련 예제 선택 전략과 신뢰도 기반의 반복 추론 접근법을 도입하여 가장 관련성 높은 예제를 선택하고 유사성에 따라 순위를 매겨 추론에 사용합니다. 생성된 응답의 신뢰도가 낮은 경우, 프레임워크는 새로운 예제를 선택하고 다시 추론을 수행하여 결과를 반복적으로 개선하고 높은 신뢰도 응답을 얻을 때까지 진행합니다. 이 접근 방식은 높은 비용을 발생시키지 않으면서 효과적인 문맥 길이를 확장하여 OOD 비디오 이해 성능을 향상시킵니다. 다양한 벤치마크 실험 결과는 특히 도메인 특정 시나리오에서 상당한 성능 향상을 보여주며, 보다 넓은 비디오 이해 응용 프로그램을 위한 기초를 마련합니다. 코드는 https://github.com/KangsanKim07/VideoICL에서 공개될 예정입니다.
English
Recent advancements in video large multimodal models (LMMs) have
significantly improved their video understanding and reasoning capabilities.
However, their performance drops on out-of-distribution (OOD) tasks that are
underrepresented in training data. Traditional methods like fine-tuning on OOD
datasets are impractical due to high computational costs. While In-context
learning (ICL) with demonstration examples has shown promising generalization
performance in language tasks and image-language tasks without fine-tuning,
applying ICL to video-language tasks faces challenges due to the limited
context length in Video LMMs, as videos require longer token lengths. To
address these issues, we propose VideoICL, a novel video in-context learning
framework for OOD tasks that introduces a similarity-based relevant example
selection strategy and a confidence-based iterative inference approach. This
allows to select the most relevant examples and rank them based on similarity,
to be used for inference. If the generated response has low confidence, our
framework selects new examples and performs inference again, iteratively
refining the results until a high-confidence response is obtained. This
approach improves OOD video understanding performance by extending effective
context length without incurring high costs. The experimental results on
multiple benchmarks demonstrate significant performance gains, especially in
domain-specific scenarios, laying the groundwork for broader video
comprehension applications. Code will be released at
https://github.com/KangsanKim07/VideoICLSummary
AI-Generated Summary