海外访问：www.kdjingpai.com

Ctrl + D 收藏本站

当前位置：首页 » AI答疑

GLM-4.5V是什么？它的主要功能有哪些？

2025-08-19

558

链接直达手机查看

GLM-4.5V是由智谱AI（Z.AI）开发的新一代视觉语言大模型（VLM），基于MOE架构的文本模型GLM-4.5-Air构建，总参数量1060亿，激活参数120亿。其核心功能包括：

多模态理解：处理图像、文本、视频内容，支持复杂的图像推理和长视频理解。
代码生成：根据网页截图或录像生成HTML/CSS代码。
视觉定位：精确识别图像中的物体位置，返回坐标信息。
GUI智能体：模拟点击、滑动等操作，适合自动化任务。
文档解析：深度分析长文档，支持摘要、翻译、图表提取等。
教育辅助：解答图文结合的学科问题，提供解题步骤。

本答案来源于文章《GLM-4.5V：能够理解图像和视频并生成代码的多模态对话模型》

相关文章

未经允许不得转载：AI生产力工具 » GLM-4.5V是什么？它的主要功能有哪些？

相关推荐