ChatRex: Addomesticare il LLM Multimodale per la Percezione e Comprensione Congiunte
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
November 27, 2024
Autori: Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang
cs.AI
Abstract
La percezione e la comprensione sono due pilastri della visione artificiale. Mentre i modelli linguistici multimodali su larga scala (MLLM) hanno dimostrato notevoli capacità di comprensione visiva, mancano probabilmente di precise capacità di percezione, ad esempio il modello all'avanguardia Qwen2-VL raggiunge solo un tasso di richiamo del 43,9% sul dataset COCO, limitando molte attività che richiedono la combinazione di percezione e comprensione. In questo lavoro, ci proponiamo di colmare questa lacuna nella percezione da entrambe le prospettive di progettazione del modello e sviluppo dei dati. Introduciamo innanzitutto ChatRex, un MLLM con un design di percezione disaccoppiato. Invece di far predire direttamente al LLM le coordinate dei box, alimentiamo i box di output da una rete di proposte universale nel LLM, consentendogli di produrre gli indici dei box corrispondenti per rappresentare i risultati della sua rilevazione, trasformando il compito di regressione in un compito basato sul recupero che il LLM gestisce in modo più efficiente. Dal punto di vista dei dati, costruiamo un motore dati completamente automatizzato e creiamo il dataset Rexverse-2M che possiede molteplici granularità per supportare l'addestramento congiunto di percezione e comprensione. Dopo un addestramento standard a due fasi, ChatRex dimostra forti capacità di percezione preservando al contempo le prestazioni di comprensione multimodale. La combinazione di queste due capacità sblocca contemporaneamente molte applicazioni interessanti, dimostrando i ruoli complementari di percezione e comprensione nei MLLM. Il codice è disponibile su https://github.com/IDEA-Research/ChatRex.
English
Perception and understanding are two pillars of computer vision. While
multimodal large language models (MLLM) have demonstrated remarkable visual
understanding capabilities, they arguably lack accurate perception abilities,
e.g. the stage-of-the-art model Qwen2-VL only achieves a 43.9 recall rate on
the COCO dataset, limiting many tasks requiring the combination of perception
and understanding. In this work, we aim to bridge this perception gap from both
model designing and data development perspectives. We first introduce ChatRex,
an MLLM with a decoupled perception design. Instead of having the LLM directly
predict box coordinates, we feed the output boxes from a universal proposal
network into the LLM, allowing it to output the corresponding box indices to
represent its detection results, turning the regression task into a
retrieval-based task that LLM handles more proficiently. From the data
perspective, we build a fully automated data engine and construct the
Rexverse-2M dataset which possesses multiple granularities to support the joint
training of perception and understanding. After standard two-stage training,
ChatRex demonstrates strong perception capabilities while preserving multimodal
understanding performance. The combination of these two capabilities
simultaneously unlocks many attractive applications, demonstrating the
complementary roles of both perception and understanding in MLLM. Code is
available at https://github.com/IDEA-Research/ChatRex.Summary
AI-Generated Summary