Aprimoramento de Legendas Descritivas com Especialistas Visuais para Percepção Multimodal
Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception
December 18, 2024
Autores: Yanpeng Sun, Jing Hao, Ke Zhu, Jiang-Jiang Liu, Yuxiang Zhao, Xiaofan Li, Gang Zhang, Zechao Li, Jingdong Wang
cs.AI
Resumo
O treinamento de Modelos de Multimodalidade Grande (LMMs) depende de legendas descritivas de imagens que conectam imagem e linguagem. Métodos existentes ou destilam a legenda dos modelos LMM ou constroem as legendas a partir de imagens da internet ou por meio de intervenção humana. Propomos aproveitar especialistas visuais prontos para uso, que foram treinados a partir de imagens anotadas inicialmente não para legendas de imagens, para aprimorar a legenda da imagem.
Nossa abordagem, chamada DCE, explora atributos de baixo nível e detalhados de objetos (por exemplo, profundidade, emoção e categorias detalhadas de objetos) e relações entre objetos (por exemplo, localização relativa e interação humano-objeto (HOI)), e combina os atributos na legenda descritiva. Experimentos demonstram que tais especialistas visuais são capazes de melhorar o desempenho em tarefas de compreensão visual, bem como raciocínio que se beneficia de uma compreensão visual mais precisa. Disponibilizaremos o código-fonte e o pipeline para que outros especialistas visuais sejam facilmente combinados no pipeline. O código-fonte completo do pipeline DCE e os conjuntos de dados estarão disponíveis em https://github.com/syp2ysy/DCE.
English
Training Large Multimodality Models (LMMs) relies on descriptive image
caption that connects image and language. Existing methods either distill the
caption from the LMM models or construct the captions from the internet images
or by human. We propose to leverage off-the-shelf visual specialists, which
were trained from annotated images initially not for image captioning, for
enhancing the image caption.
Our approach, named DCE, explores object low-level and fine-grained
attributes (e.g., depth, emotion and fine-grained categories) and object
relations (e.g., relative location and human-object-interaction (HOI)), and
combine the attributes into the descriptive caption. Experiments demonstrate
that such visual specialists are able to improve the performance for visual
understanding tasks as well as reasoning that benefits from more accurate
visual understanding. We will release the source code and the pipeline so that
other visual specialists are easily combined into the pipeline. The complete
source code of DCE pipeline and datasets will be available at
https://github.com/syp2ysy/DCE.Summary
AI-Generated Summary