ChatRex: Addomesticare il LLM Multimodale per la Percezione e Comprensione Congiunte

Abstract

La percezione e la comprensione sono due pilastri della visione artificiale. Mentre i modelli linguistici multimodali su larga scala (MLLM) hanno dimostrato notevoli capacità di comprensione visiva, mancano probabilmente di precise capacità di percezione, ad esempio il modello all'avanguardia Qwen2-VL raggiunge solo un tasso di richiamo del 43,9% sul dataset COCO, limitando molte attività che richiedono la combinazione di percezione e comprensione. In questo lavoro, ci proponiamo di colmare questa lacuna nella percezione da entrambe le prospettive di progettazione del modello e sviluppo dei dati. Introduciamo innanzitutto ChatRex, un MLLM con un design di percezione disaccoppiato. Invece di far predire direttamente al LLM le coordinate dei box, alimentiamo i box di output da una rete di proposte universale nel LLM, consentendogli di produrre gli indici dei box corrispondenti per rappresentare i risultati della sua rilevazione, trasformando il compito di regressione in un compito basato sul recupero che il LLM gestisce in modo più efficiente. Dal punto di vista dei dati, costruiamo un motore dati completamente automatizzato e creiamo il dataset Rexverse-2M che possiede molteplici granularità per supportare l'addestramento congiunto di percezione e comprensione. Dopo un addestramento standard a due fasi, ChatRex dimostra forti capacità di percezione preservando al contempo le prestazioni di comprensione multimodale. La combinazione di queste due capacità sblocca contemporaneamente molte applicazioni interessanti, dimostrando i ruoli complementari di percezione e comprensione nei MLLM. Il codice è disponibile su https://github.com/IDEA-Research/ChatRex.

English

Perception and understanding are two pillars of computer vision. While multimodal large language models (MLLM) have demonstrated remarkable visual understanding capabilities, they arguably lack accurate perception abilities, e.g. the stage-of-the-art model Qwen2-VL only achieves a 43.9 recall rate on the COCO dataset, limiting many tasks requiring the combination of perception and understanding. In this work, we aim to bridge this perception gap from both model designing and data development perspectives. We first introduce ChatRex, an MLLM with a decoupled perception design. Instead of having the LLM directly predict box coordinates, we feed the output boxes from a universal proposal network into the LLM, allowing it to output the corresponding box indices to represent its detection results, turning the regression task into a retrieval-based task that LLM handles more proficiently. From the data perspective, we build a fully automated data engine and construct the Rexverse-2M dataset which possesses multiple granularities to support the joint training of perception and understanding. After standard two-stage training, ChatRex demonstrates strong perception capabilities while preserving multimodal understanding performance. The combination of these two capabilities simultaneously unlocks many attractive applications, demonstrating the complementary roles of both perception and understanding in MLLM. Code is available at https://github.com/IDEA-Research/ChatRex.

ChatRex: Addomesticare il LLM Multimodale per la Percezione e Comprensione Congiunte

ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Abstract

Support