ChatPaper.aiChatPaper

YOLOv12: 주의 기반 실시간 객체 탐지기

YOLOv12: Attention-Centric Real-Time Object Detectors

February 18, 2025
저자: Yunjie Tian, Qixiang Ye, David Doermann
cs.AI

초록

YOLO 프레임워크의 네트워크 아키텍처 개선은 오랫동안 중요한 과제였지만, 주로 CNN(Convolutional Neural Network) 기반의 개선에 초점이 맞춰져 왔습니다. 이는 어텐션 메커니즘이 모델링 능력에서 우수함이 입증되었음에도 불구하고, 어텐션 기반 모델들이 CNN 기반 모델들의 속도를 따라잡지 못했기 때문입니다. 본 논문은 이전 CNN 기반 모델들의 속도를 유지하면서 어텐션 메커니즘의 성능 이점을 활용하는 어텐션 중심의 YOLO 프레임워크, 즉 YOLOv12를 제안합니다. YOLOv12는 경쟁력 있는 속도로 모든 인기 있는 실시간 객체 탐지기들을 정확도에서 능가합니다. 예를 들어, YOLOv12-N은 T4 GPU에서 1.64ms의 추론 지연 시간으로 40.6% mAP를 달성하며, 이는 고급 YOLOv10-N / YOLOv11-N을 2.1%/1.2% mAP로 능가하면서도 비슷한 속도를 유지합니다. 이러한 이점은 다른 모델 규모에서도 확장됩니다. YOLOv12는 또한 DETR을 개선한 RT-DETR / RT-DETRv2와 같은 엔드투엔드 실시간 탐지기들을 능가합니다: YOLOv12-S는 RT-DETR-R18 / RT-DETRv2-R18을 42% 더 빠르게 실행하면서도 계산량의 36%, 파라미터의 45%만 사용합니다. 더 많은 비교는 그림 1에 나와 있습니다.
English
Enhancing the network architecture of the YOLO framework has been crucial for a long time, but has focused on CNN-based improvements despite the proven superiority of attention mechanisms in modeling capabilities. This is because attention-based models cannot match the speed of CNN-based models. This paper proposes an attention-centric YOLO framework, namely YOLOv12, that matches the speed of previous CNN-based ones while harnessing the performance benefits of attention mechanisms. YOLOv12 surpasses all popular real-time object detectors in accuracy with competitive speed. For example, YOLOv12-N achieves 40.6% mAP with an inference latency of 1.64 ms on a T4 GPU, outperforming advanced YOLOv10-N / YOLOv11-N by 2.1%/1.2% mAP with a comparable speed. This advantage extends to other model scales. YOLOv12 also surpasses end-to-end real-time detectors that improve DETR, such as RT-DETR / RT-DETRv2: YOLOv12-S beats RT-DETR-R18 / RT-DETRv2-R18 while running 42% faster, using only 36% of the computation and 45% of the parameters. More comparisons are shown in Figure 1.

Summary

AI-Generated Summary

PDF72February 19, 2025