O GLM-4.5V tem a capacidade de localizar com precisão elementos visuais (aterramento) e retornar a posição do objeto-alvo na imagem/vídeo no formato de coordenadas [x1,y1,x2,y2]. Essa tecnologia tem um valor de aplicação importante em cenários industriais, como segurança e controle de qualidade, por exemplo, para localizar objetos anormais em imagens de vigilância ou identificar produtos defeituosos em linhas de produção. Combinando a detecção de área e a compreensão semântica, o modelo pode não apenas encontrar o local de destino, mas também correlacionar informações contextuais para explicar a base da localização, e os resultados de saída podem ser conectados diretamente ao sistema de automação para executar operações subsequentes.
Essa resposta foi extraída do artigoGLM-4.5V: um modelo de diálogo multimodal capaz de compreender imagens e vídeos e gerar códigoO