代码能力深度评测
根据 xAI 发布的技术白皮书,Grok-2 在以下编程场景展现突出能力:
- 复杂算法实现:在 LeetCode 困难题型测试中达到 82% 一次通过率,优于 Claude 3.5 Sonnet 的 78%
- 跨语言转换:Java 到 Rust 的代码转换保持 91% 功能完整性,显著高于 GPT-4-Turbo 的 83%
- 调试分析:能自动识别并修复 73% 的隐蔽内存泄露问题,超过 CodeLlama-70b 15 个百分点
典型工作流示例:当输入「实现快速排序并添加多线程优化」时,Grok-2 会:1)先输出标准实现;2)标注关键性能瓶颈点;3)给出 OpenMP/TBB 两种并行化方案;4)附带测试用例生成建议。
在 HuggingFace Open LLM Leaderboard 的编程细分榜中,Grok-2 以 68.7 分位列第三,落后 GPT-4-Turbo 约 2.3 分但推理速度快 2.1 倍。
本答案来源于文章《Grok-2:xAI 公司开源的混合专家大语言模型》