Solução de fluxo total para processamento de entrada multimodal
Para cenários de entrada multimodal, como imagem + texto, o AIRouter oferece um fluxo de processamento padronizado:
1. pré-processamento de dados
- As imagens precisam ser convertidas para codificação Base64 (resolução recomendada não superior a 1024px)
- Os avisos de texto precisam conter instruções claras de processamento (por exemplo, "descreva o conteúdo da imagem").
2) Chamadas de modelo
Use o método generate_mm e especifique um modelo compatível com multimodalidade (atualmente, recomenda-se o gpt4o_mini):
resposta = LLM_Wrapper.generate_mm(
model_name="gpt4o_mini",
prompt="Descrever imagem",
img_base64=sua_base64_string
)
3. tratamento de exceções
- Verificação do registro de erros do tipo MultimodalError
- As implementações do Docker precisam garantir que as dependências de processamento de imagens, como o pillow, estejam instaladas
Sugestão ampliada: para imagens médicas e outros campos profissionais, recomenda-se trabalhar com ferramentas de anotação profissionais para pré-processar as imagens antes da entrada.
Essa resposta foi extraída do artigoAIRouter: uma ferramenta de roteamento inteligente para invocar vários modelos com uma interface de API unificadaO