近日,智谱 AI 公司宣布其 GLM-4.5
系列模型加入开源行列,为大型语言模型的开源社区注入了新的活力。此次开源主要包含两款基于混合专家(MoE)架构的模型。MoE 架构通过在推理过程中仅激活一部分专家(即神经网络的一部分),允许模型在保持较低计算成本的同时,有效扩展其总参数规模。
发布的两个模型分别是:
- GLM-4.5-355B:总参数量为 3550 亿,激活参数量为 320 亿。
- GLM-4.5-Air:总参数量为 1060 亿,激活参数量为 120 亿。
在参数规模上,GLM-4.5
的设计显示出对效率的追求。例如,其 3550 亿的总参数量大约是 DeepSeek-R1
的一半和 Kimi-K2
的三分之一。
性能基准与价格策略
在性能评估方面,GLM-4.5
在包括 MMLU Pro
、AIME24
、MATH 500
和 SWE-Bench Verified
在内的 12 个公开基准测试中表现出色。综合平均分显示,GLM-4.5
在全球模型中位列第三,同时在国产模型和开源模型两个类别中均排名第一。特别是在衡量代码修复能力的 SWE-Bench
这类权威基准上的优异表现,预示了其在软件开发领域的应用潜力。
在 API 调用价格方面,GLM-4.5
采用了阶梯式定价模型。当输入token数在 0-32k 范围内且输出token数在 0-0.2k 范围内时,其价格为输入 0.8 元/百万 tokens、输出 2 元/百万 tokens。当输入token数增加到 32k-128k 范围时,其定价策略则与 Deepseek R1
和 Kimi k2
等模型看齐。
此外,模型的高速版本在实际测试中展示了高达 100 tokens/秒的生成速度,这对于需要实时交互的应用场景是一个重要优势。
多维度代码能力实测
为了验证 GLM-4.5
在实际应用中的代码生成能力和设计美学,我们将其与另外两款业界知名的模型——月之暗面开发的 Kimi K2
和阿里云推出的 Qwen3 Coder
——进行了一系列横向评测。
测试一:现代化登录页面生成
首先是一项基础的前端开发任务,旨在评估模型对常规 Web 组件的生成能力。
测试提示词:
请创建一个现代化的登录页面,包含以下功能:
- 邮箱和密码输入框
- 登录按钮
- “记住我”和”忘记密码”选项
- Google第三方登录
- 注册链接
要求:深色主题,未来科技风格,居中布局,良好的用户体验。
三款模型都成功生成了功能完整的登录页面,并实现了基本的交互效果。在设计风格上各有侧重,Qwen3 Coder
的色彩搭配方案较为突出,而 GLM-4.5
和 Kimi K2
也提供了高质量的实现。
测试二:动画天气卡片
第二个测试增加了对 CSS 动画和 JavaScript 交互的复杂度要求,任务是创建一个能动态展示多种天气状况的动画天气卡片。
测试提示词:
Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations:
Wind: (e.g., moving clouds, swaying trees, or wind lines)
Rain: (e.g., falling raindrops, puddles forming)
Sun: (e.g., shining rays, bright background)
Snow: (e.g., falling snowflakes, snow accumulating)
Show all the weather card side by side.
The card should have a dark background.
Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions.
在该测试中,GLM-4.5
的表现更胜一筹。其生成的卡片不仅动画效果流畅,在用户界面(UI)的细节处理上也更为精致,整体设计美感更强。
测试三:高级时尚杂志风格知识卡片
为了进一步评估模型在高级设计和审美层面的能力,引入了一个更专业的提示词,要求模型扮演一位国际顶尖的数字杂志艺术总监,设计一张具有未来科技感的知识卡片。
测试提示词:
你是一位国际顶尖的数字杂志艺术总监和前端开发专家,曾为Vogue、Elle等时尚杂志设计过数字版面,擅长将奢华杂志美学与现代网页设计完美融合,创造出令人惊艳的视觉体验。
任务
请使用未来科技风格 (Futuristic Tech)设计高级时尚杂志风格的知识卡片,将日常信息以精致奢华的杂志编排呈现,让用户感受到如同翻阅高端杂志般的视觉享受。
- 日期区域:以各风格特有的方式呈现当前日期
- 标题和副标题:根据风格调整字体、大小、排版方式
- 引用区块:设计独特的引用样式,体现风格特点
- 核心要点列表:以符合风格的方式呈现列表内容
- 编辑笔记/小贴士:设计成符合风格的边栏或注释
技术规范:
* 使用HTML5、Font Awesome、Tailwind CSS和必要的JavaScript
* FontAwesome: [https://lf6-cdn-tos.bytecdntp.com/cdn/expire-100-M/font-awesome/6.0.0/css/all.min.css](https://lf6-cdn-tos.bytecdntp.com/cdn/expire-100-M/font-awesome/6.0.0/css/all.min.css)
* Tailwind CSS: <https://lf3-cdn-tos.bytecdntp.com/cdn/expire-1-M/tailwindcss/2.2.19/tailwind.min.css>
* 中文字体: [https://fonts.geekzu.org/css2?family=Noto+Serif+SC:wght@400;500;600;700&family=Noto+Sans+SC:wght@300;400;500;700&display=swap](https://fonts.geekzu.org/css2?family=Noto+Serif+SC:wght@400;500;600;700&family=Noto+Sans+SC:wght@300;400;500;700&display=swap)
- 可考虑添加微妙的动效,如页面载入时的淡入效果或微妙的悬停反馈
- 确保代码简洁高效,注重性能和可维护性
- 使用CSS变量管理颜色和间距,便于风格统一
- 对于液态数字形态主义风格,必须添加流体动态效果和渐变过渡
- 对于超感官极简主义风格,必须精确控制每个像素和微妙的交互反馈
- 对于新表现主义数据可视化风格,必须将数据以视觉化方式融入设计
输出要求:
- 代码应当优雅且符合最佳实践,CSS应体现出对细节的极致追求
- 设计的宽度为440px,高度不超过1280px
- 对主题内容进行抽象提炼,只显示列点或最核心句引用,让人阅读有收获感
- 永远用中文输出,装饰元素可用法语、英语等其他语言显得有逼格
请以国际顶尖杂志艺术总监的眼光和审美标准,创造风格迥异但同样令人惊艳的数字杂志式卡片,让用户感受到”这不是普通的信息卡片,而是一件可收藏的数字艺术品”。
Kimi K2
与 Qwen3 Coder
的生成结果如下:
在此项对比中,GLM-4.5
的优势变得更加明显。它生成的卡片不仅通过发光背景有效凸显了未来感,色彩搭配和谐,更重要的是,它是唯一在设计中加入了交互元素的模型。当鼠标悬停时,卡片有相应的反馈,提升了用户体验。
测试四:3D 打砖块游戏
最后的测试是一项复杂的任务,要求模型使用 Three.js
创建一个完全由鼠标控制的 3D 打砖块游戏,全面考察模型对游戏逻辑、物理引擎和视觉特效的综合处理能力。
测试提示词:
“创建一个完全由鼠标控制的3D打砖块游戏:
- 使用Three.js构建沉浸式3D场景,包含以下核心组件:可左右滑动的玩家挡板(Paddle):通过鼠标水平移动控制;具备物理属性的弹跳球体:初始速度适中,碰撞后遵循反射定律;多排彩色悬浮砖块(Bricks):不同颜色对应不同分值
- 物理效果要求:碰撞检测:球体与砖块/挡板/边界精确碰撞;动态反弹:挡板不同位置碰撞改变球的水平反弹角度;重力模拟:球体运动轨迹呈自然抛物线
- 游戏机制:计分系统:击碎砖块实时计分(普通砖=10分,金色砖=50分);生命值:初始3条命,球掉落底部则扣除生命;速度进化:每击碎10块砖,球速提升15%
- 视觉特效:砖块击碎时触发粒子爆炸效果;球体运动轨迹添加动态拖尾光效;挡板碰撞时出现环形冲击波动画
- 交互增强:实时显示分数和生命值HUD;游戏结束界面显示最终得分+重新开始按钮;添加碰撞音效(使用Web Audio API)”
从最终实现效果来看,GLM-4.5
生成的游戏可玩性最强,游戏逻辑的完整度最高,且产生的 bug 最少,再次证明了其在处理复杂代码生成任务上的领先能力。
综合来看,GLM-4.5
在代码生成,特别是结合了设计美学和复杂交互的任务上,表现出了强大的综合实力。其生成代码的一次性成功率和对细节的把控能力,使其成为一个值得开发者关注的高性能开源模型。