Funções de compreensão de imagem explicadas
Principais recursos
- Suporte a alta resoluçãoImagens com resolução de até 4K
- Capacidade de capturar detalhesReconhece detalhes minuciosos em imagens
- Comparação da análise de vários gráficosVárias imagens podem ser processadas e comparadas ao mesmo tempo
procedimento
- Prepare os arquivos de imagem: coloque as imagens a serem analisadas em um diretório local
- Carregamento de modelos e tokenizadores
- Construção de instruções de consulta e caminhos de imagem
- Raciocínio com modelos
- Obtenção e análise dos resultados retornados
Código de amostra (computação)::
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained('internlm/internlm-xcomposer2d5-7b', trust_remote_code=True).cuda().eval()
tokenizer = AutoTokenizer.from_pretrained('internlm/internlm-xcomposer2d5-7b', trust_remote_code=True)
query = "详细分析这张图片"
image = ['examples/dubai.png']
response, _ = model.chat(tokenizer, query, image, do_sample=False, num_beams=3)
print(response)
Esse recurso é adequado para uma variedade de cenários de aplicativos, como anotação de imagens, auditoria de conteúdo e análise de produtos.
Essa resposta foi extraída do artigoInternLM-XComposer: um macromodelo multimodal para a produção de textos muito longos e compreensão de imagens e vídeosO































