GLM-4.5V是由智谱AI(Z.AI)开发的新一代视觉语言大模型(VLM),它基于采用MOE(Mixture of Experts)架构的旗舰文本模型GLM-4.5-Air构建。该模型总参数量达到1060亿,其中激活参数为120亿。MOE架构的优势在于能够动态选择专家网络处理不同任务,从而在保持高效率的同时提升模型性能。GLM-4.5V不仅能处理传统的文本和图像,还能理解视频内容,其能力覆盖复杂的图像推理、长视频理解、文档解析以及GUI操作等多模态任务。
本答案来源于文章《GLM-4.5V:能够理解图像和视频并生成代码的多模态对话模型》

































