YOLOv12は、GitHubユーザーのsunsmarterjieが主導するオープンソースのリアルタイムターゲット検出ツールで、YOLO(You Only Look Once)シリーズの最新進化版に属する。このプロジェクトはバッファロー大学と中国科学院の研究者が共同で参加しており、ディープラーニング技術による高精度、低遅延のターゲット検出に焦点を当てている。
主な改善点は以下の通り:
- アテンション・メカニズムの最適化エリアアテンションとR-ELANモジュールを導入することで、特徴抽出プロセスを自動的に最適化し、小さなターゲットの検出を大幅に改善。
- マルチモデルアーキテクチャNano/Small/Medium/Large/Extra-Largeの5種類の事前学習済みモデルを提供し、エッジデバイスからサーバクラスタまで、さまざまなハードウェア環境に対応。
- 精度とスピードのバランスT4 GPUの場合、ベースモデル(YOLOv12-N)は1.64msの超低レイテンシを維持しながら、40.61 TP3T mAPを達成しました。
- 展開のしやすさONNXおよびTensorRTフォーマットへのエクスポートをサポートし、産業グレードのアプリケーションへの展開を容易にします。
このプロジェクトは、GNU AGPL-3.0オープンソースプロトコルを採用し、YOLOシリーズのシングルステージ検出アーキテクチャの利点をそのままに、モジュール設計によりアルゴリズムの複雑さを軽減している。
この答えは記事から得たものである。YOLOv12:リアルタイム画像・ビデオターゲット検出のためのオープンソースツールについて































