多模态输入处理全流程方案
针对图像+文本等多模态输入场景,AIRouter提供了标准化处理流程:
1. 数据预处理
– 图像需转换为Base64编码(建议分辨率不超过1024px)
– 文本提示需包含明确的处理指令(如”描述图片内容”)
2. 模型调用
使用generate_mm方法并指定支持多模态的模型(当前推荐gpt4o_mini):
response = LLM_Wrapper.generate_mm(
model_name=”gpt4o_mini”,
prompt=”描述图片”,
img_base64=your_base64_string
)
3. 异常处理
– 检查日志中的MultimodalError类型错误
– Docker部署时需确认已安装pillow等图像处理依赖
扩展建议:对于医疗影像等专业领域,建议配合专业标注工具预处理图像后再输入。
本答案来源于文章《AIRouter:统一API接口调用多模型的智能路由工具》