当前位置：首页 » AI答疑

Qwen3相比前代Qwen2.5在模型架构和训练方法上有哪些关键改进？

2025-08-24

1.8 K

代际升级的技术解析

Qwen3相较Qwen2.5的核心提升体现在三个维度：

架构革新：
- 引入MoE架构实现参数效率10倍提升
- 注意力头配置优化（如32B模型查询头增至64个）
- 14B及以上模型取消词嵌入绑定(tie_embedding)
训练突破：
- 上下文窗口从8K扩展到128K
- 采用渐进式长度扩展训练（4K→32K→128K）
- 强化学习阶段计算资源投入增加3倍
数据工程：
- 合成数据生成流程引入自监督质量过滤
- STEM领域数据比例提升至18%
- 代码数据增加TypeScript/Rust等现代语言

性能表现上呈现出代际压缩效应：

这些改进使Qwen3在保持推理速度的同时，复杂推理能力达到Gemini 1.5 Pro级别。