ChatPaper.aiChatPaper

RF-DETR Object Detection versus YOLOv12: Een onderzoek naar transformer-gebaseerde en CNN-gebaseerde architecturen voor het detecteren van enkelvoudige en meervoudige groene vruchten in complexe boomgaardomgevingen onder labelonduidelijkheid

RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

April 17, 2025
Auteurs: Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee
cs.AI

Samenvatting

Dit onderzoek voert een gedetailleerde vergelijking uit tussen het RF-DETR objectdetectie-basismodel en de YOLOv12 objectdetectiemodelconfiguraties voor het detecteren van groene vruchten in een complexe boomgaardomgeving, gekenmerkt door labelambiguïteit, occlusies en achtergrondvermenging. Er is een aangepaste dataset ontwikkeld met zowel single-class (groene vruchten) als multi-class (geoccludeerde en niet-geoccludeerde groene vruchten) annotaties om de modelprestaties onder dynamische real-world omstandigheden te beoordelen. Het RF-DETR objectdetectiemodel, dat gebruikmaakt van een DINOv2-backbone en vervormbare aandacht, excelleerde in het modelleren van globale context en identificeerde effectief gedeeltelijk geoccludeerde of ambiguë groene vruchten. Daarentegen benutte YOLOv12 CNN-gebaseerde aandacht voor verbeterde lokale feature-extractie, wat het optimaliseerde voor rekenkundige efficiëntie en edge-implementatie. RF-DETR behaalde de hoogste gemiddelde precisie (mAP50) van 0,9464 in single-class detectie, wat zijn superieure vermogen aantoont om groene vruchten in rommelige scènes te lokaliseren. Hoewel YOLOv12N de hoogste mAP@50:95 van 0,7620 registreerde, presteerde RF-DETR consistent beter in complexe ruimtelijke scenario's. Voor multi-class detectie leidde RF-DETR met een mAP@50 van 0,8298, wat zijn vermogen toonde om onderscheid te maken tussen geoccludeerde en niet-geoccludeerde vruchten, terwijl YOLOv12L het hoogst scoorde in mAP@50:95 met 0,6622, wat wijst op betere classificatie in gedetailleerde occlusiecontexten. Analyse van de trainingsdynamiek benadrukte de snelle convergentie van RF-DETR, vooral in single-class instellingen waar het binnen 10 epochs een plateau bereikte, wat de efficiëntie van transformer-gebaseerde architecturen aantoont in het aanpassen aan dynamische visuele data. Deze bevindingen valideren de effectiviteit van RF-DETR voor precisielandbouwtoepassingen, terwijl YOLOv12 geschikt is voor scenario's met snelle respons. >Indextermen: RF-DETR objectdetectie, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNN's.
English
This study conducts a detailed comparison of RF-DETR object detection base model and YOLOv12 object detection model configurations for detecting greenfruits in a complex orchard environment marked by label ambiguity, occlusions, and background blending. A custom dataset was developed featuring both single-class (greenfruit) and multi-class (occluded and non-occluded greenfruits) annotations to assess model performance under dynamic real-world conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and deformable attention, excelled in global context modeling, effectively identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12 leveraged CNN-based attention for enhanced local feature extraction, optimizing it for computational efficiency and edge deployment. RF-DETR achieved the highest mean Average Precision (mAP50) of 0.9464 in single-class detection, proving its superior ability to localize greenfruits in cluttered scenes. Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR consistently outperformed in complex spatial scenarios. For multi-class detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to differentiate between occluded and non-occluded fruits, while YOLOv12L scored highest in mAP@50:95 with 0.6622, indicating better classification in detailed occlusion contexts. Training dynamics analysis highlighted RF-DETR's swift convergence, particularly in single-class settings where it plateaued within 10 epochs, demonstrating the efficiency of transformer-based architectures in adapting to dynamic visual data. These findings validate RF-DETR's effectiveness for precision agricultural applications, with YOLOv12 suited for fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs

Summary

AI-Generated Summary

PDF42April 22, 2025