Análise das técnicas de otimização de desempenho do YOLOv12
O YOLOv12 adota um projeto inovador de mecanismo de atenção, que inclui o módulo Area Attention, uma tecnologia que se concentra automaticamente nas principais áreas de recursos da imagem para melhorar significativamente a detecção de alvos pequenos. Juntamente com a introdução do módulo R-ELAN, ele reduz efetivamente a complexidade computacional e, no ambiente da GPU NVIDIA T4, seu modelo Nano pode atingir um atraso de inferência de quadro único de 1,64 ms e um valor de mAP de 40,6%.
Em comparação com a versão tradicional do YOLO, o aprimoramento arquitetônico do YOLOv12 se reflete principalmente em três pontos: primeiro, o aprimoramento dinâmico da seletividade de recursos, que ajusta automaticamente a intensidade da extração de recursos em diferentes regiões por meio do peso da atenção; segundo, a otimização da fusão de recursos entre camadas, e o módulo R-ELAN consegue uma integração mais eficiente de recursos em várias escalas; e, terceiro, a carga computacional é alocada de forma inteligente, o que alivia as regiões de fundo e os recursos de baixa importância para o processamento. Essas inovações tecnológicas permitem que o YOLOv12 melhore a precisão da detecção em 5 a 8 pontos percentuais em comparação com as versões anteriores, mantendo a vantagem do desempenho em tempo real.
Essa resposta foi extraída do artigoYOLOv12: uma ferramenta de código aberto para detecção de alvos em imagens e vídeos em tempo realO































