O GLM-4.5V oferece soluções profissionais para os problemas de reconhecimento nos testes de automação de GUI:
- Reconhecimento preciso do elemento usando o recurso de localização visual do elemento do modelo (aterramento)
- Localize com precisão os controles-alvo por meio de coordenadas [[x1,y1,x2,y2]], com uma taxa de precisão muito superior à da correspondência tradicional de imagens.
- Suporta clicar, deslizar etc. com base em capturas de tela sem depender de IDs de controle.
- Para a interface de usuário dinâmica, o modelo pode entender a relação lógica da interface e melhorar a estabilidade do teste
- Implementável localmente para proteger os dados de teste
Essa abordagem é particularmente adequada para cenários de teste de automação de GUI em setores como o bancário e o de saúde, e pode reduzir significativamente a taxa de falsos positivos.
Essa resposta foi extraída do artigoGLM-4.5V: um modelo de diálogo multimodal capaz de compreender imagens e vídeos e gerar códigoO































