当前位置：首页 » AI答疑

如何实现文本与图像的多模态内容生成？

2025-08-22

645

多模态支持方案

geminicli2api支持同时处理文本和图像输入，为内容创作、教育等领域提供解决方案：

API调用方式：
- OpenAI兼容接口：通过files字段提交图像路径（支持本地文件/URL）
- 原生Gemini接口：在parts数组中包含fileData对象
文件格式：支持JPEG/PNG/GIF等常见格式，单文件建议小于4MB
混合指令：在消息中同时包含文本指令和图像引用（如”描述这张图片中的主要物体”）