O YOLOv12 é uma ferramenta de detecção de alvos em tempo real de código aberto liderada pelo usuário do GitHub sunsmarterjie, pertencente à mais recente evolução da série YOLO (You Only Look Once). O projeto conta com a participação conjunta de pesquisadores da Universidade de Buffalo e da Academia Chinesa de Ciências, e se concentra na detecção de alvos de alta precisão e baixa latência por meio de técnicas de aprendizagem profunda.
Os principais aprimoramentos incluem:
- Otimização do mecanismo de atençãoApresentando o Area Attention e o módulo R-ELAN para otimizar automaticamente o processo de extração de recursos e melhorar significativamente a detecção de alvos pequenos.
- arquitetura multimodeloFornece cinco tipos de modelos pré-treinados, Nano/Small/Medium/Large/Extra-Large, adaptando-se a diferentes ambientes de hardware, desde dispositivos de borda até clusters de servidores.
- Equilíbrio entre precisão e velocidadeEm GPUs T4, o modelo básico (YOLOv12-N) atinge 40,61 TP3T mAP e mantém uma latência ultrabaixa de 1,64 ms!
- Facilidade de implantaçãoSuporte à exportação para os formatos ONNX e TensorRT para facilitar a implementação em aplicativos de nível industrial
O projeto adota o protocolo de código aberto GNU AGPL-3.0, mantendo as vantagens da arquitetura de detecção de estágio único da série YOLO em sua totalidade, ao mesmo tempo em que reduz a complexidade do algoritmo por meio de um design modular.
Essa resposta foi extraída do artigoYOLOv12: uma ferramenta de código aberto para detecção de alvos em imagens e vídeos em tempo realO































