Potenziamento della didascalia descrittiva con specialisti visivi per la percezione multimodale
Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception
December 18, 2024
Autori: Yanpeng Sun, Jing Hao, Ke Zhu, Jiang-Jiang Liu, Yuxiang Zhao, Xiaofan Li, Gang Zhang, Zechao Li, Jingdong Wang
cs.AI
Abstract
Allenare Modelli Multimodalità di Grandi Dimensioni (LMMs) si basa su didascalie di immagini descrittive che collegano immagini e linguaggio. I metodi esistenti o distillano la didascalia dai modelli LMM o costruiscono le didascalie dalle immagini su internet o tramite intervento umano. Proponiamo di sfruttare specialisti visivi già pronti, che sono stati addestrati inizialmente su immagini annotate non per la generazione di didascalie, per migliorare la didascalia dell'immagine.
Il nostro approccio, chiamato DCE, esplora attributi di basso livello e finemente dettagliati degli oggetti (ad esempio, profondità, emozione e categorie finemente dettagliate) e relazioni tra gli oggetti (ad esempio, posizione relativa e interazione umano-oggetto (HOI)), e combina gli attributi nella didascalia descrittiva. Gli esperimenti dimostrano che tali specialisti visivi sono in grado di migliorare le prestazioni per compiti di comprensione visiva così come di ragionamento che beneficia di una comprensione visiva più accurata. Rilasceremo il codice sorgente e il flusso di lavoro in modo che altri specialisti visivi possano essere facilmente combinati nel flusso di lavoro. Il codice sorgente completo del flusso di lavoro DCE e i set di dati saranno disponibili su https://github.com/syp2ysy/DCE.
English
Training Large Multimodality Models (LMMs) relies on descriptive image
caption that connects image and language. Existing methods either distill the
caption from the LMM models or construct the captions from the internet images
or by human. We propose to leverage off-the-shelf visual specialists, which
were trained from annotated images initially not for image captioning, for
enhancing the image caption.
Our approach, named DCE, explores object low-level and fine-grained
attributes (e.g., depth, emotion and fine-grained categories) and object
relations (e.g., relative location and human-object-interaction (HOI)), and
combine the attributes into the descriptive caption. Experiments demonstrate
that such visual specialists are able to improve the performance for visual
understanding tasks as well as reasoning that benefits from more accurate
visual understanding. We will release the source code and the pipeline so that
other visual specialists are easily combined into the pipeline. The complete
source code of DCE pipeline and datasets will be available at
https://github.com/syp2ysy/DCE.Summary
AI-Generated Summary