GLM-4.5、Kimi K2、Qwen3 Coder代码能力比较

2025-08-01

2.6 K

近日，智谱 AI 公司宣布其 GLM-4.5 系列模型加入开源行列，为大型语言模型的开源社区注入了新的活力。此次开源主要包含两款基于混合专家（MoE）架构的模型。MoE 架构通过在推理过程中仅激活一部分专家（即神经网络的一部分），允许模型在保持较低计算成本的同时，有效扩展其总参数规模。

发布的两个模型分别是：

GLM-4.5-355B：总参数量为 3550 亿，激活参数量为 320 亿。
GLM-4.5-Air：总参数量为 1060 亿，激活参数量为 120 亿。

在参数规模上，GLM-4.5 的设计显示出对效率的追求。例如，其 3550 亿的总参数量大约是 DeepSeek-R1 的一半和 Kimi-K2 的三分之一。

性能基准与价格策略

在性能评估方面，GLM-4.5 在包括 MMLU Pro、AIME24、MATH 500 和 SWE-Bench Verified 在内的 12 个公开基准测试中表现出色。综合平均分显示，GLM-4.5 在全球模型中位列第三，同时在国产模型和开源模型两个类别中均排名第一。特别是在衡量代码修复能力的 SWE-Bench 这类权威基准上的优异表现，预示了其在软件开发领域的应用潜力。

在 API 调用价格方面，GLM-4.5 采用了阶梯式定价模型。当输入token数在 0-32k 范围内且输出token数在 0-0.2k 范围内时，其价格为输入 0.8 元/百万 tokens、输出 2 元/百万 tokens。当输入token数增加到 32k-128k 范围时，其定价策略则与 Deepseek R1 和 Kimi k2 等模型看齐。

此外，模型的高速版本在实际测试中展示了高达 100 tokens/秒的生成速度，这对于需要实时交互的应用场景是一个重要优势。

多维度代码能力实测

为了验证 GLM-4.5 在实际应用中的代码生成能力和设计美学，我们将其与另外两款业界知名的模型——月之暗面开发的 Kimi K2 和阿里云推出的 Qwen3 Coder——进行了一系列横向评测。

测试一：现代化登录页面生成

首先是一项基础的前端开发任务，旨在评估模型对常规 Web 组件的生成能力。

测试提示词：

请创建一个现代化的登录页面，包含以下功能：

邮箱和密码输入框
登录按钮
“记住我”和”忘记密码”选项
Google第三方登录
注册链接

要求：深色主题，未来科技风格，居中布局，良好的用户体验。

三款模型都成功生成了功能完整的登录页面，并实现了基本的交互效果。在设计风格上各有侧重，Qwen3 Coder 的色彩搭配方案较为突出，而 GLM-4.5 和 Kimi K2 也提供了高质量的实现。

测试二：动画天气卡片

第二个测试增加了对 CSS 动画和 JavaScript 交互的复杂度要求，任务是创建一个能动态展示多种天气状况的动画天气卡片。

测试提示词：

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations:
Wind: (e.g., moving clouds, swaying trees, or wind lines)
Rain: (e.g., falling raindrops, puddles forming)
Sun: (e.g., shining rays, bright background)
Snow: (e.g., falling snowflakes, snow accumulating)
Show all the weather card side by side.
The card should have a dark background.
Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions.

在该测试中，GLM-4.5 的表现更胜一筹。其生成的卡片不仅动画效果流畅，在用户界面（UI）的细节处理上也更为精致，整体设计美感更强。

测试三：高级时尚杂志风格知识卡片

为了进一步评估模型在高级设计和审美层面的能力，引入了一个更专业的提示词，要求模型扮演一位国际顶尖的数字杂志艺术总监，设计一张具有未来科技感的知识卡片。

测试提示词：

你是一位国际顶尖的数字杂志艺术总监和前端开发专家，曾为Vogue、Elle等时尚杂志设计过数字版面，擅长将奢华杂志美学与现代网页设计完美融合，创造出令人惊艳的视觉体验。

任务

请使用未来科技风格 (Futuristic Tech)设计高级时尚杂志风格的知识卡片，将日常信息以精致奢华的杂志编排呈现，让用户感受到如同翻阅高端杂志般的视觉享受。

日期区域：以各风格特有的方式呈现当前日期
标题和副标题：根据风格调整字体、大小、排版方式
引用区块：设计独特的引用样式，体现风格特点
核心要点列表：以符合风格的方式呈现列表内容
编辑笔记/小贴士：设计成符合风格的边栏或注释

技术规范：

* 使用HTML5、Font Awesome、Tailwind CSS和必要的JavaScript
* FontAwesome: [https://lf6-cdn-tos.bytecdntp.com/cdn/expire-100-M/font-awesome/6.0.0/css/all.min.css](https://lf6-cdn-tos.bytecdntp.com/cdn/expire-100-M/font-awesome/6.0.0/css/all.min.css)
* Tailwind CSS: <https://lf3-cdn-tos.bytecdntp.com/cdn/expire-1-M/tailwindcss/2.2.19/tailwind.min.css>
* 中文字体: [https://fonts.geekzu.org/css2?family=Noto+Serif+SC:wght@400;500;600;700&family=Noto+Sans+SC:wght@300;400;500;700&display=swap](https://fonts.geekzu.org/css2?family=Noto+Serif+SC:wght@400;500;600;700&family=Noto+Sans+SC:wght@300;400;500;700&display=swap)

可考虑添加微妙的动效，如页面载入时的淡入效果或微妙的悬停反馈
确保代码简洁高效，注重性能和可维护性
使用CSS变量管理颜色和间距，便于风格统一
对于液态数字形态主义风格，必须添加流体动态效果和渐变过渡
对于超感官极简主义风格，必须精确控制每个像素和微妙的交互反馈
对于新表现主义数据可视化风格，必须将数据以视觉化方式融入设计

输出要求：

代码应当优雅且符合最佳实践，CSS应体现出对细节的极致追求
设计的宽度为440px，高度不超过1280px
对主题内容进行抽象提炼，只显示列点或最核心句引用，让人阅读有收获感
永远用中文输出，装饰元素可用法语、英语等其他语言显得有逼格

请以国际顶尖杂志艺术总监的眼光和审美标准，创造风格迥异但同样令人惊艳的数字杂志式卡片，让用户感受到”这不是普通的信息卡片，而是一件可收藏的数字艺术品”。

Kimi K2 与 Qwen3 Coder 的生成结果如下：

在此项对比中，GLM-4.5 的优势变得更加明显。它生成的卡片不仅通过发光背景有效凸显了未来感，色彩搭配和谐，更重要的是，它是唯一在设计中加入了交互元素的模型。当鼠标悬停时，卡片有相应的反馈，提升了用户体验。

测试四：3D 打砖块游戏

最后的测试是一项复杂的任务，要求模型使用 Three.js 创建一个完全由鼠标控制的 3D 打砖块游戏，全面考察模型对游戏逻辑、物理引擎和视觉特效的综合处理能力。

测试提示词：

“创建一个完全由鼠标控制的3D打砖块游戏：

使用Three.js构建沉浸式3D场景，包含以下核心组件：可左右滑动的玩家挡板（Paddle）：通过鼠标水平移动控制；具备物理属性的弹跳球体：初始速度适中，碰撞后遵循反射定律；多排彩色悬浮砖块（Bricks）：不同颜色对应不同分值
物理效果要求：碰撞检测：球体与砖块/挡板/边界精确碰撞；动态反弹：挡板不同位置碰撞改变球的水平反弹角度；重力模拟：球体运动轨迹呈自然抛物线
游戏机制：计分系统：击碎砖块实时计分（普通砖=10分，金色砖=50分）；生命值：初始3条命，球掉落底部则扣除生命；速度进化：每击碎10块砖，球速提升15%
视觉特效：砖块击碎时触发粒子爆炸效果；球体运动轨迹添加动态拖尾光效；挡板碰撞时出现环形冲击波动画
交互增强：实时显示分数和生命值HUD；游戏结束界面显示最终得分+重新开始按钮；添加碰撞音效（使用Web Audio API）”

从最终实现效果来看，GLM-4.5 生成的游戏可玩性最强，游戏逻辑的完整度最高，且产生的 bug 最少，再次证明了其在处理复杂代码生成任务上的领先能力。

综合来看，GLM-4.5 在代码生成，特别是结合了设计美学和复杂交互的任务上，表现出了强大的综合实力。其生成代码的一次性成功率和对细节的把控能力，使其成为一个值得开发者关注的高性能开源模型。

未经允许不得转载：AI生产力工具 » GLM-4.5、Kimi K2、Qwen3 Coder代码能力比较

GLM-4.5、Kimi K2、Qwen3 Coder代码能力比较

性能基准与价格策略