Mamba-YOLO-World: YOLO-World와 Mamba를 결합한 Open-Vocabulary Detection
Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
September 13, 2024
저자: Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang
cs.AI
초록
오픈 어휘 감지 (OVD)는 미리 정의된 범주 집합을 넘어 객체를 감지하는 것을 목표로 합니다. YOLO 시리즈를 통합한 선도적인 모델인 YOLO-World은 속도와 효율성을 우선시하는 시나리오에 적합합니다. 그러나 그 성능은 목 feature 퓨전 메커니즘에 의해 제약을 받는데, 이는 이차 복잡성과 제한된 유도 수용 영역을 유발합니다. 이러한 한계를 극복하기 위해 우리는 MambaFusion Path Aggregation Network (MambaFusion-PAN)을 목 구조로 채택한 새로운 YOLO 기반 OVD 모델인 Mamba-YOLO-World를 제안합니다. 구체적으로, 우리는 병렬-유도 선택 스캔 알고리즘과 직렬-유도 선택 스캔 알고리즘으로 구성된 혁신적인 상태 공간 모델 기반 특징 퓨전 메커니즘을 소개합니다. 이는 선형 복잡성과 전역적으로 유도된 수용 영역을 가지고 있습니다. 이 모델은 다중 모달 입력 시퀀스와 맘바 숨겨진 상태를 활용하여 선택적 스캔 프로세스를 안내합니다. 실험 결과는 우리의 모델이 COCO 및 LVIS 벤치마크에서 원래의 YOLO-World를 제로샷 및 파인튜닝 설정에서 능가하면서 비슷한 매개변수와 FLOPs를 유지한다는 것을 보여줍니다. 게다가, 이는 기존 최첨단 OVD 방법들을 더 적은 매개변수와 FLOPs로 능가합니다.
English
Open-vocabulary detection (OVD) aims to detect objects beyond a predefined
set of categories. As a pioneering model incorporating the YOLO series into
OVD, YOLO-World is well-suited for scenarios prioritizing speed and
efficiency.However, its performance is hindered by its neck feature fusion
mechanism, which causes the quadratic complexity and the limited guided
receptive fields.To address these limitations, we present Mamba-YOLO-World, a
novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation
Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce
an innovative State Space Model-based feature fusion mechanism consisting of a
Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan
algorithm with linear complexity and globally guided receptive fields. It
leverages multi-modal input sequences and mamba hidden states to guide the
selective scanning process.Experiments demonstrate that our model outperforms
the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and
fine-tuning settings while maintaining comparable parameters and FLOPs.
Additionally, it surpasses existing state-of-the-art OVD methods with fewer
parameters and FLOPs.Summary
AI-Generated Summary