Esquema de aprimoramento da precisão de Q&A multimodal
A seguinte combinação de estratégias pode ser usada para resolver o problema da precisão da análise de imagens:
- Pré-processamento de entradaImagem: Certifique-se de que a imagem atenda aos requisitos do modelo (recomenda-se o formato PNG/JPG, com resolução não superior a 1024 x 1024) e possa ser padronizada com a biblioteca PIL:
from PIL import Image
img = Image.open('input.jpg').convert('RGB').resize((768,768)) - Aprimoramento da palavra-chaveAnálise explícita de imagens e caminhos de inferência em problemas, por exemplo:
'逐步分析这张电路图:1.识别核心元件 2.说明工作原理 3.指出潜在设计缺陷' - modelo de inferência mistaAtivar o Thinking Mode para obter resultados mais confiáveis:
response = model.chat(tokenizer, '描述图片中的医学影像特征', image=img_path, mode='thinking') - Mecanismos para validação dos resultadosO processo de calibração a seguir é usado para perguntas e respostas importantes:
- Solicitar escores de confiança de saída do modelo
- Requer uma explicação passo a passo da base para o julgamento
- Validação cruzada com descrições textuais
Observação: a versão atual tem suporte limitado para quadros de imagem contínuos (por exemplo, vídeo), e recomenda-se que o conteúdo dinâmico seja dividido em quadros-chave para processamento. Para imagens de domínio profissional (por exemplo, desenhos médicos e de engenharia), a base de conhecimento de domínio pode melhorar a taxa de precisão de 20% ou mais.
Essa resposta foi extraída do artigoGLM-4.5: grandes modelos multimodais de código aberto que suportam raciocínio inteligente e geração de códigoO































