OMCAT: 옴니 컨텍스트 인식 트랜스포머
OMCAT: Omni Context Aware Transformer
October 15, 2024
저자: Arushi Goel, Karan Sapra, Matthieu Le, Rafael Valle, Andrew Tao, Bryan Catanzaro
cs.AI
초록
대형 언어 모델(Large Language Models, LLMs)은 텍스트 생성 및 이해 분야에서 상당한 발전을 이루어왔으며, 최근의 진전은 시각 및 오디오 입력을 통합하는 다중 모달 LLMs로 확장되었습니다. 그러나 이러한 모델들은 특히 오디오와 비디오 스트림 간 이벤트 간의 세밀한, 크로스 모달 시간 이해에서 여전히 어려움을 겪고 있습니다. 저희는 이러한 도전 과제들을 OCTAV와 OMCAT이라는 두 가지 주요 기여로 해결합니다. OCTAV(Omni Context and Temporal Audio Video)는 오디오와 비디오 간의 이벤트 전환을 캡처하기 위해 설계된 혁신적인 데이터셋입니다. 둘째로, OMCAT(Omni Context Aware Transformer)은 RoPE의 혁신적인 확장인 RoTE(Rotary Time Embeddings)를 활용하여 시간 기반 작업에서의 시간적 근거화와 계산 효율성을 향상시키는 강력한 모델입니다. 강력한 세 단계의 훈련 파이프라인인 특징 정렬, 지침 조정 및 OCTAV 특화 훈련을 통해 OMCAT은 크로스 모달 시간 이해에서 뛰어난 성과를 보입니다. 저희 모델은 오디오-비주얼 질의 응답(Audio-Visual Question Answering, AVQA) 작업 및 OCTAV 벤치마크에서 최첨단 성능을 보여주며, 포괄적인 실험 및 제거 실험을 통해 검증된 시간적 추론 및 크로스 모달 정렬에서 상당한 향상을 보여줍니다. 저희 데이터셋과 코드는 공개적으로 제공될 예정이며, 데모 페이지 링크는 https://om-cat.github.io 입니다.
English
Large Language Models (LLMs) have made significant strides in text generation
and comprehension, with recent advancements extending into multimodal LLMs that
integrate visual and audio inputs. However, these models continue to struggle
with fine-grained, cross-modal temporal understanding, particularly when
correlating events across audio and video streams. We address these challenges
with two key contributions: a new dataset and model, called OCTAV and OMCAT
respectively. OCTAV (Omni Context and Temporal Audio Video) is a novel dataset
designed to capture event transitions across audio and video. Second, OMCAT
(Omni Context Aware Transformer) is a powerful model that leverages RoTE
(Rotary Time Embeddings), an innovative extension of RoPE, to enhance temporal
grounding and computational efficiency in time-anchored tasks. Through a robust
three-stage training pipeline-feature alignment, instruction tuning, and
OCTAV-specific training-OMCAT excels in cross-modal temporal understanding. Our
model demonstrates state-of-the-art performance on Audio-Visual Question
Answering (AVQA) tasks and the OCTAV benchmark, showcasing significant gains in
temporal reasoning and cross-modal alignment, as validated through
comprehensive experiments and ablation studies. Our dataset and code will be
made publicly available. The link to our demo page is https://om-cat.github.io.Summary
AI-Generated Summary