Embora o GLM-4.5 tenha recursos de processamento multimodal para texto e imagens, existem as seguintes limitações:
- Tipo de mídiaNo momento, suporta apenas imagens estáticas (JPEG/PNG, etc.) e análise de PDF, não suporta processamento de vídeo
- limite de simultaneidadeA API vLLM processa até 300 imagens em uma única solicitação.
- compreensão gráficaPrecisão mais baixa do que os modelos CV dedicados para tarefas visuais complexas (por exemplo, detecção de objetos)
- associação intermodal: os recursos de raciocínio conjunto gráfico e textual (por exemplo, geração de análises com base em gráficos) ainda estão sendo otimizados
Sugestões para aplicações práticas: para cenas como análise de fotos de problemas matemáticos, a saída estruturada (formato="json") pode obter melhores resultados; o processamento profissional de imagens deve ser combinado com o OpenCV e outras bibliotecas especiais.
Essa resposta foi extraída do artigoGLM-4.5: grandes modelos multimodais de código aberto que suportam raciocínio inteligente e geração de códigoO