MM-Ego: 에고센트릭 다중모달 LLMs 구축을 향하여
MM-Ego: Towards Building Egocentric Multimodal LLMs
October 9, 2024
저자: Hanrong Ye, Haotian Zhang, Erik Daxberger, Lin Chen, Zongyu Lin, Yanghao Li, Bowen Zhang, Haoxuan You, Dan Xu, Zhe Gan, Jiasen Lu, Yinfei Yang
cs.AI
초록
본 연구는 에고센트릭 비디오 이해를 위한 다중 모달 기반 모델을 포괄적으로 탐구하는 것을 목표로 합니다. 이 목표를 달성하기 위해 우리는 세 가지 분야에서 노력합니다. 첫째, 에고센트릭 비디오 이해를 위한 QA 데이터 부족으로, 우리는 인간이 주석을 단 데이터를 기반으로 30초에서 1시간까지의 에고센트릭 비디오에 대한 7백만 개의 고품질 QA 샘플을 효율적으로 생성하는 데이터 엔진을 개발합니다. 현재 이는 가장 큰 에고센트릭 QA 데이터셋입니다. 둘째, 우리는 모델의 능력을 평가하기 위해 다양한 길이의 비디오에서 시각적 세부 사항을 인식하고 기억하는 모델의 능력을 평가하기 위해 629개의 비디오와 7,026개의 질문을 포함한 도전적인 에고센트릭 QA 벤치마크를 제공합니다. 우리는 평가 중인 모델에서 발생하는 불가피한 언어 편향을 완화하는 데 도움이 되는 새로운 디바이어싱 평가 방법을 소개합니다. 셋째, 우리는 새로운 "메모리 포인터 프롬프팅" 메커니즘을 특징으로 하는 전문적인 다중 모달 아키텍처를 제안합니다. 이 설계에는 전체 비디오의 포괄적인 이해를 얻고 주요 시각적 정보를 식별하기 위한 글로벌 시선 단계가 포함되어 있으며, 그 다음 핵심 시각적 정보를 활용하여 응답을 생성하는 대체 단계가 이어집니다. 이를 통해 모델은 확장된 비디오 콘텐츠를 더 효과적으로 이해할 수 있습니다. 데이터, 벤치마크 및 모델로 MM-Ego를 성공적으로 구축하여, 이는 강력한 성능을 보여주는 에고센트릭 다중 모달 LLM입니다.
English
This research aims to comprehensively explore building a multimodal
foundation model for egocentric video understanding. To achieve this goal, we
work on three fronts. First, as there is a lack of QA data for egocentric video
understanding, we develop a data engine that efficiently generates 7M
high-quality QA samples for egocentric videos ranging from 30 seconds to one
hour long, based on human-annotated data. This is currently the largest
egocentric QA dataset. Second, we contribute a challenging egocentric QA
benchmark with 629 videos and 7,026 questions to evaluate the models' ability
in recognizing and memorizing visual details across videos of varying lengths.
We introduce a new de-biasing evaluation method to help mitigate the
unavoidable language bias present in the models being evaluated. Third, we
propose a specialized multimodal architecture featuring a novel "Memory Pointer
Prompting" mechanism. This design includes a global glimpse step to gain an
overarching understanding of the entire video and identify key visual
information, followed by a fallback step that utilizes the key visual
information to generate responses. This enables the model to more effectively
comprehend extended video content. With the data, benchmark, and model, we
successfully build MM-Ego, an egocentric multimodal LLM that shows powerful
performance on egocentric video understanding.Summary
AI-Generated Summary