GLM-4.5V是由智谱AI(Z.AI)开发的新一代视觉语言大模型(VLM)。该模型基于采用MOE架构的旗舰文本模型GLM-4.5-Air构建,总参数量达到1060亿,其中激活参数为120亿。GLM-4.5V不仅能处理图像和文本,还能理解视频内容,其核心能力覆盖了复杂的图像推理、长视频理解、文档内容解析以及图形用户界面(GUI)操作等任务。为了平衡不同场景下的效率和效果,模型引入了“思考模式”(Thinking Mode)开关,允许用户在需要快速响应或深度推理的任务间自由切换。该模型支持的最大输出长度为64K Tokens,并且已经在Hugging Face上开源,遵循MIT许可证,允许开发者进行商业使用和二次开发。
功能列表
- 网页代码生成: 分析网页截图或屏幕录像,理解其布局和交互逻辑,直接生成完整可用的HTML和CSS代码。
- 视觉元素定位 (Grounding): 在图像或视频中精确定位并识别具体物体,并能以坐标形式(如
[x1,y1,x2,y2]
)返回目标位置,适用于安检、质检和内容审核等场景。 - GUI智能体: 能够识别并处理屏幕截图,根据指令执行点击、滑动和修改内容等操作,为智能体完成自动化任务提供支持。
- 复杂长文档解读: 深度分析数十页的复杂图文报告,支持内容摘要、翻译、图表提取,并能根据文档内容提出见解。
- 图像识别与推理: 具备强大的场景理解和逻辑推理能力,能够仅根据图像内容推断其背后的背景信息,无需依赖外部搜索。
- 视频理解: 解析长视频内容,准确识别视频中的时间、人物、事件以及它们之间的逻辑关系。
- 学科问题解答: 能够解决图文结合的复杂问题,特别适用于K12教育场景中的习题解答和讲解。
使用帮助
GLM-4.5V为开发者提供了多种接入和使用方式,包括通过官方API快速集成和通过Hugging Face在本地部署。
1. 通过智谱AI开放平台API使用(推荐)
对于希望快速将模型集成到应用中的开发者而言,使用官方API是最便捷的方式。这种方式无需管理复杂的硬件资源。
API价格
- 输入: ¥0.6 / 百万 tokens
- 输出: ¥1.8 / 百万 tokens
调用步骤
- 获取API Key: 前往智谱AI开放平台注册账户并创建API Key。
- 安装SDK:
pip install zhipuai
- 编写调用代码: 以下是一个使用Python SDK调用API的示例,演示了如何发送图片和文本进行提问。
from zhipuai import ZhipuAI # 使用你的API Key进行初始化 client = ZhipuAI(api_key="YOUR_API_KEY") # 请替换成你自己的API Key response = client.chat.completions.create( model="glm-4.5v", # 指定使用GLM-4.5V模型 messages=[ { "role": "user", "content": [ { "type": "text", "text": "这张图片里有什么?请详细描述一下。" }, { "type": "image_url", "image_url": { "url": "https://img.alicdn.com/imgextra/i3/O1CN01b22S451o81U5g251b_!!6000000005177-0-tps-1024-1024.jpg" } } ] } ] ) print(response.choices[0].message.content)
启用“思考模式”
对于需要模型进行更深层次推理的复杂任务(如分析复杂图表),可以通过在请求中添加thinking
参数来启用“思考模式”。
以下是使用cURL
调用并启用“思考模式”的官方示例:
curl --location 'https://api.z.ai/api/paas/v4/chat/completions' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "glm-4.5v",
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://cloudcovert-1305175928.cos.ap-guangzhou.myqcloud.com/%E5%9B%BE%E7%89%87grounding.PNG"
}
},
{
"type": "text",
"text": "桌子上从右数第二瓶啤酒在哪里?请用[[xmin,ymin,xmax,ymax]]格式提供坐标。"
}
]
}
],
"thinking": {
"type":"enabled"
}
}'
2. 通过Hugging Face Transformers本地部署
对于需要进行二次开发或离线使用的研究人员和开发者,可以从Hugging Face Hub下载模型并部署在自己的环境中。
- 环境要求: 本地部署需要强大的硬件支持,通常是配备大显存的高性能NVIDIA GPU(如A100/H100)。
- 安装依赖:
pip install transformers torch accelerate Pillow
- 加载并运行模型:
import torch from PIL import Image from transformers import AutoProcessor, AutoModelForCausalLM # Hugging Face上的模型路径 model_path = "zai-org/GLM-4.5V" processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True) # 加载模型 model = AutoModelForCausalLM.from_pretrained( model_path, torch_dtype=torch.bfloat16, low_cpu_mem_usage=True, trust_remote_code=True ).to("cuda").eval() # 准备图片和文本提示 image = Image.open("path_to_your_image.jpg").convert("RGB") prompt_text = "请使用HTML和CSS,根据这张网页截图生成一个高质量的UI界面。" prompt = [{"role": "user", "image": image, "content": prompt_text}] # 处理输入并生成回复 inputs = processor.apply_chat_template(prompt, add_generation_prompt=True, tokenize=True, return_tensors="pt", return_dict=True) inputs = {k: v.to("cuda") for k, v in inputs.items()} gen_kwargs = {"max_new_tokens": 4096, "do_sample": True, "top_p": 0.8, "temperature": 0.6} with torch.no_grad(): outputs = model.generate(**inputs, **gen_kwargs) response_ids = outputs[:, inputs['input_ids'].shape[1]:] response_text = processor.decode(response_ids[0]) print(response_text)
应用场景
- 前端开发自动化
开发者可以提供一张设计精良的网页截图,GLM-4.5V能够直接分析截图中的UI布局、颜色搭配和组件样式,并自动生成对应的HTML和CSS代码,极大地提高了从设计稿到静态页面的开发效率。 - 智能安防与监控
在安防监控场景中,模型可以分析实时视频流,根据指令(如“请定位图中所有穿红色衣服的人”)精确地在画面中标注出目标的位置,用于人流追踪、异常行为检测等。 - 办公自动化智能体
在办公软件中,用户可以通过自然语言命令模型完成复杂操作。例如,用户可以说“请将PPT第四页表格第一行的数据修改为‘89’、‘21’、‘900’”,模型会识别屏幕内容并模拟鼠标和键盘操作来完成修改。 - 科研与金融文档分析
研究人员或分析师可以上传一份数十页的PDF格式研究报告或财报,要求模型“总结这份报告的核心观点,并把第三章的关键数据转换成Markdown表格”。模型会深度阅读并提取信息,生成结构化的摘要和图表。 - K12教育辅导
学生可以拍下数学或物理应用题(包含图表和文字),向模型提问。模型不仅能给出正确答案,还能像老师一样,分步骤解释解题的思路和用到的公式,提供详细的解题过程。
QA
- GLM-4.5V和GLM-4.1V是什么关系?
GLM-4.5V是GLM-4.1V-Thinking技术路线的延续和迭代升级。它基于更强大的纯文本旗舰模型GLM-4.5-Air构建,在继承前代模型能力的基础上,全面提升了在各类视觉多模态任务上的性能。 - 使用GLM-4.5V API的成本是多少?
通过智谱AI的官方API使用该模型,计费标准为:输入端每百万tokens收费0.6元人民币,输出端每百万tokens收费1.8元人民币。 - “思考模式”(Thinking Mode)具体有什么用?
“思考模式”是为需要深度推理的复杂任务设计的。启用后,模型会花费更多时间进行逻辑思考和信息整合,从而生成质量更高、更准确的回答,但响应时间会变长。它适合用于分析复杂图表、编写代码或解读长文档等场景。对于简单的问答,则可以使用响应更快的非思考模式。