ChatPaper.aiChatPaper

MB-ORES: Un Motivatore Oggettuale Multi-Ramo per il Grounding Visivo nel Telerilevamento

MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

March 31, 2025
Autori: Karim Radouane, Hanane Azzag, Mustapha lebbah
cs.AI

Abstract

Proponiamo un framework unificato che integra il rilevamento di oggetti (OD) e il grounding visivo (VG) per immagini di telerilevamento (RS). Per supportare il convenzionale OD e stabilire un priore intuitivo per il compito VG, ottimizziamo un rilevatore di oggetti open-set utilizzando dati di espressioni referenziali, inquadrandolo come un compito OD parzialmente supervisionato. Nella prima fase, costruiamo una rappresentazione grafica di ciascuna immagine, comprendente query di oggetti, embedding di classe e posizioni delle proposte. Successivamente, la nostra architettura task-aware elabora questo grafico per eseguire il compito VG. Il modello è composto da: (i) una rete multi-branch che integra caratteristiche spaziali, visive e categoriali per generare proposte task-aware, e (ii) una rete di ragionamento sugli oggetti che assegna probabilità alle proposte, seguita da un meccanismo di selezione soft per la localizzazione finale dell'oggetto referenziato. Il nostro modello dimostra prestazioni superiori sui dataset OPT-RSVG e DIOR-RSVG, ottenendo miglioramenti significativi rispetto ai metodi state-of-the-art pur mantenendo le capacità classiche di OD. Il codice sarà disponibile nel nostro repository: https://github.com/rd20karim/MB-ORES.
English
We propose a unified framework that integrates object detection (OD) and visual grounding (VG) for remote sensing (RS) imagery. To support conventional OD and establish an intuitive prior for VG task, we fine-tune an open-set object detector using referring expression data, framing it as a partially supervised OD task. In the first stage, we construct a graph representation of each image, comprising object queries, class embeddings, and proposal locations. Then, our task-aware architecture processes this graph to perform the VG task. The model consists of: (i) a multi-branch network that integrates spatial, visual, and categorical features to generate task-aware proposals, and (ii) an object reasoning network that assigns probabilities across proposals, followed by a soft selection mechanism for final referring object localization. Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG datasets, achieving significant improvements over state-of-the-art methods while retaining classical OD capabilities. The code will be available in our repository: https://github.com/rd20karim/MB-ORES.

Summary

AI-Generated Summary

PDF22April 2, 2025