시각 전문가를 활용한 다중 모달 인식을 위한 설명적 캡션 향상
Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception
December 18, 2024
저자: Yanpeng Sun, Jing Hao, Ke Zhu, Jiang-Jiang Liu, Yuxiang Zhao, Xiaofan Li, Gang Zhang, Zechao Li, Jingdong Wang
cs.AI
초록
대규모 다중 모달 모델(LMMs) 훈련은 이미지와 언어를 연결하는 서술적 이미지 캡션에 의존합니다. 기존 방법은 LMM 모델로부터 캡션을 추출하거나 인터넷 이미지에서 또는 사람에 의해 캡션을 구성하는 방법이 있습니다. 우리는 이미지 캡션을 향상하기 위해 처음에 이미지 캡션에 대해 훈련되지 않은 주석이 달린 이미지로부터 훈련된 즉시 시각 전문가를 활용하기를 제안합니다.
우리의 접근 방식인 DCE는 객체의 저수준 및 세부 속성(예: 깊이, 감정 및 세부 범주) 및 객체 관계(예: 상대적 위치 및 사람-객체 상호 작용(HOI))을 탐색하고 이러한 속성을 서술적 캡션으로 결합합니다. 실험 결과, 이러한 시각 전문가들이 시각 이해 작업 및 더 정확한 시각 이해에서 이익을 얻는 추론에 성능을 향상시킬 수 있다는 것을 입증했습니다. 다른 시각 전문가들이 쉽게 파이프라인에 결합될 수 있도록 소스 코드와 파이프라인을 공개할 것입니다. DCE 파이프라인의 완전한 소스 코드와 데이터셋은 https://github.com/syp2ysy/DCE에서 제공될 예정입니다.
English
Training Large Multimodality Models (LMMs) relies on descriptive image
caption that connects image and language. Existing methods either distill the
caption from the LMM models or construct the captions from the internet images
or by human. We propose to leverage off-the-shelf visual specialists, which
were trained from annotated images initially not for image captioning, for
enhancing the image caption.
Our approach, named DCE, explores object low-level and fine-grained
attributes (e.g., depth, emotion and fine-grained categories) and object
relations (e.g., relative location and human-object-interaction (HOI)), and
combine the attributes into the descriptive caption. Experiments demonstrate
that such visual specialists are able to improve the performance for visual
understanding tasks as well as reasoning that benefits from more accurate
visual understanding. We will release the source code and the pipeline so that
other visual specialists are easily combined into the pipeline. The complete
source code of DCE pipeline and datasets will be available at
https://github.com/syp2ysy/DCE.