虽然GLM-4.5具备文本和图像的多模态处理能力,但存在以下限制:
- 媒体类型:当前仅支持静态图片(JPEG/PNG等)和PDF解析,暂不支持视频处理
- 并发限制:vLLM API单次请求最多处理300张图片
- 图像理解:对复杂视觉任务(如物体检测)的精度低于专用CV模型
- 跨模态关联:图文联合推理能力(如根据图表生成分析报告)仍在优化中
实际应用时建议:对于数学题拍照解析等场景,配合结构化输出(format=”json”)能获得更好效果;涉及专业图像处理应结合OpenCV等专用库。
本答案来源于文章《GLM-4.5:开源多模态大模型支持智能推理与代码生成》