Como obter a geração de conteúdo multimodal para textos e imagens?

2025-08-22

589

Link diretoVisualização móvel

多模态支持方案

geminicli2api支持同时处理文本和图像输入，为内容创作、教育等领域提供解决方案：

API调用方式::
- OpenAI兼容接口：通过files字段提交图像路径（支持本地文件/URL）
- 原生Gemini接口：在parts数组中包含fileDatanamorado
formato de arquivo：支持JPEG/PNG/GIF等常见格式，单文件建议小于4MB
混合指令：在消息中同时包含文本指令和图像引用（如”描述这张图片中的主要物体”）