GLM-4.5V是由智谱AI(Z.AI)开发的新一代视觉语言大模型(VLM),基于MOE架构的文本模型GLM-4.5-Air构建,总参数量1060亿,激活参数120亿。其核心功能包括:
- 多模态理解:处理图像、文本、视频内容,支持复杂的图像推理和长视频理解。
- 代码生成:根据网页截图或录像生成HTML/CSS代码。
- 视觉定位:精确识别图像中的物体位置,返回坐标信息。
- GUI智能体:模拟点击、滑动等操作,适合自动化任务。
- 文档解析:深度分析长文档,支持摘要、翻译、图表提取等。
- 教育辅助:解答图文结合的学科问题,提供解题步骤。
本答案来源于文章《GLM-4.5V:能够理解图像和视频并生成代码的多模态对话模型》