YOLOv12 ist ein Open-Source-Tool zur Zielerkennung in Echtzeit, das vom GitHub-Benutzer sunsmarterjie geleitet wird und zur neuesten Entwicklung der YOLO-Reihe (You Only Look Once) gehört. Das Projekt wird gemeinsam von Forschern der University of Buffalo und der Chinesischen Akademie der Wissenschaften durchgeführt und konzentriert sich auf die hochpräzise Zielerfassung mit geringer Latenzzeit durch Deep-Learning-Techniken.
Zu den wichtigsten Verbesserungen gehören:
- Optimierung des AufmerksamkeitsmechanismusEinführung der Area Attention und des R-ELAN-Moduls zur automatischen Optimierung der Merkmalsextraktion und zur signifikanten Verbesserung der Erkennung von kleinen Zielen.
- Multimodell-ArchitekturBietet fünf Arten von vortrainierten Modellen (Nano/Small/Medium/Large/Extra-Large), die sich an unterschiedliche Hardwareumgebungen von Edge-Geräten bis hin zu Server-Clustern anpassen.
- Genauigkeit-Drehzahl-GleichgewichtAuf T4-GPUs erreicht das Basismodell (YOLOv12-N) 40,61 TP3T mAP bei einer ultraniedrigen Latenz von 1,64 ms.
- EinsatzfreundlichkeitUnterstützt den Export in ONNX- und TensorRT-Formate für den einfachen Einsatz in industriellen Anwendungen
Das Projekt verwendet das GNU AGPL-3.0 Open-Source-Protokoll, das die Vorteile der einstufigen Erkennungsarchitektur der YOLO-Serie vollständig beibehält und gleichzeitig die Komplexität des Algorithmus durch modularen Aufbau reduziert.
Diese Antwort stammt aus dem ArtikelYOLOv12: ein Open-Source-Tool für die Echtzeit-Erkennung von Bild- und VideozielenDie































