Posição atual:fig. início " Respostas da IA

Como você lida com entradas multimodais (por exemplo, imagem + texto) e chamadas de função no AIRouter?

2025-08-21

212

O AIRouter suporta entradas multimodais e chamadas de função estendendo a API da seguinte forma:

Entradas multimodais::
1. as imagens precisam ser convertidas para o formato Base64, por exemplo:
with open("image.jpg", "rb") as f: img_base64 = base64.b64encode(f.read()).decode()
2. chamadasgenerate_mmque especifica um modelo compatível com multimodalidade (por exemplo, GPT-4o):
LLM_Wrapper.generate_mm(model_name="gpt4o_mini", prompt="描述图片", img_base64=img_base64)
chamada de função::
1. defina uma lista de ferramentas (por exemplo, funções de consulta meteorológica) com nomes, descrições e parâmetros.
2. adoçãofunction_callingpor exemplo:
LLM_Wrapper.function_calling(model_name="gpt4o_mini", prompt="北京天气", tools=tools)

tomar nota deÉ necessário ter certeza de que o modelo selecionado é compatível com a função correspondente (por exemplo, o GPT-4o é compatível com multimodal), caso contrário, será retornado um erro.

Essa resposta foi extraída do artigoAIRouter: uma ferramenta de roteamento inteligente para invocar vários modelos com uma interface de API unificadaO

Como você lida com entradas multimodais (por exemplo, imagem + texto) e chamadas de função no AIRouter?

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Como você lida com entradas multimodais (por exemplo, imagem + texto) e chamadas de função no AIRouter?

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida