海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

Qwen3相比前代Qwen2.5在模型架构和训练方法上有哪些关键改进?

2025-08-24 1.3 K

代际升级的技术解析

Qwen3相较Qwen2.5的核心提升体现在三个维度:

  1. 架构革新
    • 引入MoE架构实现参数效率10倍提升
    • 注意力头配置优化(如32B模型查询头增至64个)
    • 14B及以上模型取消词嵌入绑定(tie_embedding)
  2. 训练突破
    • 上下文窗口从8K扩展到128K
    • 采用渐进式长度扩展训练(4K→32K→128K)
    • 强化学习阶段计算资源投入增加3倍
  3. 数据工程
    • 合成数据生成流程引入自监督质量过滤
    • STEM领域数据比例提升至18%
    • 代码数据增加TypeScript/Rust等现代语言

性能表现上呈现出代际压缩效应

  • Qwen3-4B性能匹敌Qwen2.5-72B
  • MoE版30B模型训练成本仅相当于密集版72B的1/5
  • 在GSM8K数学基准上,32B模型准确率提升17.3%

这些改进使Qwen3在保持推理速度的同时,复杂推理能力达到Gemini 1.5 Pro级别。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文