Inst-IT: 명시적 시각 프롬프트 지시 조정을 통한 다중 모달 인스턴스 이해 촉진
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning
December 4, 2024
저자: Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
초록
대규모 다중모달 모델(LMMs)은 지시 튜닝의 발전과 함께 중요한 발전을 이루었습니다. 그러나 기존 모델은 이미지와 비디오를 종합적 수준에서 이해할 수 있지만, 보다 세밀한 이해와 조정이 필요한 인스턴스 수준의 이해에는 여전히 어려움을 겪고 있습니다. 인스턴스 수준의 이해는 우리가 가장 관심을 가지는 구체적인 요소에 초점을 맞추기 때문에 중요합니다. 흥미로운 점은 최신 LMMs가 명시적 시각적 단서를 제공받을 때 강력한 인스턴스 이해 능력을 보여준다는 것을 발견한 기존 연구들이 있습니다. 이에 동기부여를 받아, 우리는 GPT-4o의 지원을 받아 이미지와 비디오에서 인스턴스 수준 정보를 추출하기 위한 자동 주석 파이프라인을 소개합니다. 이를 바탕으로, 우리는 명시적 시각적 프롬프팅을 통해 인스턴스 이해를 향상시키기 위한 Inst-IT를 제안했습니다. Inst-IT는 다중모달 인스턴스 수준 이해를 진단하는 벤치마크, 대규모 지시 튜닝 데이터셋, 그리고 기존 LMMs의 공간-시간 인스턴스 이해 능력을 효과적으로 향상시키기 위한 연속적 지시 튜닝 훈련 패러다임으로 구성됩니다. 실험 결과는 Inst-IT의 도움으로 우리 모델이 Inst-IT 벤치마크에서 우수한 성능을 달성하는데 뿐만 아니라 다양한 일반적인 이미지 및 비디오 이해 벤치마크에서도 상당한 향상을 보여준다는 것을 보여줍니다. 이는 우리 데이터셋이 인스턴스 수준 이해뿐만 아니라 일반적인 이미지 및 비디오 이해 능력을 강화한다는 점을 강조합니다.
English
Large Multimodal Models (LMMs) have made significant breakthroughs with the
advancement of instruction tuning. However, while existing models can
understand images and videos at a holistic level, they still struggle with
instance-level understanding that requires a more nuanced comprehension and
alignment. Instance-level understanding is crucial, as it focuses on the
specific elements that we are most interested in. Excitingly, existing works
find that the state-of-the-art LMMs exhibit strong instance understanding
capabilities when provided with explicit visual cues. Motivated by this, we
introduce an automated annotation pipeline assisted by GPT-4o to extract
instance-level information from images and videos through explicit visual
prompting for instance guidance. Building upon this pipeline, we proposed
Inst-IT, a solution to enhance LMMs in Instance understanding via explicit
visual prompt Instruction Tuning. Inst-IT consists of a benchmark to diagnose
multimodal instance-level understanding, a large-scale instruction-tuning
dataset, and a continuous instruction-tuning training paradigm to effectively
enhance spatial-temporal instance understanding capabilities of existing LMMs.
Experimental results show that, with the boost of Inst-IT, our models not only
achieve outstanding performance on Inst-IT Bench but also demonstrate
significant improvements across various generic image and video understanding
benchmarks. This highlights that our dataset not only boosts instance-level
understanding but also strengthens the overall capabilities of generic image
and video comprehension.Summary
AI-Generated Summary