ChatPaper.aiChatPaper

대규모 비전-언어 모델에서 이미지에 대한 주의 유도

Attention Prompting on Image for Large Vision-Language Models

September 25, 2024
저자: Runpeng Yu, Weihao Yu, Xinchao Wang
cs.AI

초록

대형 언어 모델(LLM)과 비교하면 대형 시각-언어 모델(LVLM)은 이미지를 입력으로 받아들일 수 있어서 더 흥미로운 신생 능력을 보여주며 다양한 시각-언어 작업에서 인상적인 성능을 나타냅니다. LLM의 텍스트 프롬프팅에 영감을 받아 시각 프롬프팅이 LVLM의 시각 정보 인식 능력을 향상시키는 데 탐구되었습니다. 그러나 이전의 시각 프롬프팅 기술은 텍스트 쿼리를 고려하지 않고 시각 입력만 처리하여 모델이 작업을 완료하기 위해 텍스트 지침을 따르는 능력을 제한했습니다. 이러한 공백을 메우기 위해 본 연구에서는 이미지에 대한 주의 프롬프팅이라는 새로운 프롬프팅 기술을 제안합니다. 이 기술은 단순히 원본 입력 이미지 위에 텍스트 쿼리에 따라 안내되는 주의 히트맵을 오버레이하고 LVLM의 다양한 작업을 효과적으로 향상시킵니다. 구체적으로, 우리는 CLIP와 같은 보조 모델을 사용하여 입력 이미지에 대한 텍스트 쿼리에 따른 주의 히트맵을 생성합니다. 그런 다음 히트맵은 단순히 원본 이미지의 픽셀 값에 곱해져 LVLM에 대한 실제 입력 이미지를 얻습니다. 다양한 시각-언어 벤치마크에서의 광범위한 실험은 우리 기술의 효과를 검증합니다. 예를 들어, 이미지에 대한 주의 프롬프팅은 LLaVA-1.5에서 MM-Vet 및 LLaVA-Wild 벤치마크에서 각각 3.8% 및 2.9%의 성능 향상을 이룹니다.
English
Compared with Large Language Models (LLMs), Large Vision-Language Models (LVLMs) can also accept images as input, thus showcasing more interesting emergent capabilities and demonstrating impressive performance on various vision-language tasks. Motivated by text prompting in LLMs, visual prompting has been explored to enhance LVLMs' capabilities of perceiving visual information. However, previous visual prompting techniques solely process visual inputs without considering text queries, limiting the models' ability to follow text instructions to complete tasks. To fill this gap, in this work, we propose a new prompting technique named Attention Prompting on Image, which just simply overlays a text-query-guided attention heatmap on the original input image and effectively enhances LVLM on various tasks. Specifically, we generate an attention heatmap for the input image dependent on the text query with an auxiliary model like CLIP. Then the heatmap simply multiplies the pixel values of the original image to obtain the actual input image for the LVLM. Extensive experiments on various vison-language benchmarks verify the effectiveness of our technique. For example, Attention Prompting on Image improves LLaVA-1.5 by 3.8% and 2.9% on MM-Vet and LLaVA-Wild benchmarks, respectively.

Summary

AI-Generated Summary

PDF72November 16, 2024