Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

Como implementar a geração de conteúdo multimodal (texto+imagem) com o geminicli2api?

2025-08-22 699
Link diretoVisualização móvel
qrcode

A geração multimodal precisa ser alcançada de duas maneiras:

1. interfaces compatíveis com a OpenAI::
existirchat.completions.createA solicitação adiciona ofilesParâmetros:
{
"model": "gemini-2.5-pro",
"messages": [{"role": "user", "content": "描述图片内容"}],
"files": ["image.jpg"]
}

2. API nativa do Gemini::
existirgenerateContentOs pontos de extremidade criam solicitações de várias partes:
"parts": [
{"text": "描述这张图片"},
{"file_data": {"mime_type": "image/jpeg", "file_uri": "image.jpg"}}
]

Detalhes técnicos:
- Suporte a JPEG/PNG e outros formatos comuns
- Faça upload de até 10 MB de conteúdo em uma única solicitação
- A imagem será codificada como base64 antes de ser transferida

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo