多语言能力的技术实现
Qwen3覆盖119种语言和方言,突破性表现在:
- 语系全覆盖:包含印欧语系(67种)、汉藏语系(3种)、南岛语系(12种)等主流语系,甚至包含卢森堡语、阿萨姆语等低资源语言
- 方言细分:阿拉伯语支持纳吉迪/埃及/摩洛哥等7种方言变体
- 混合编码:有效处理中文/日文/韩文等CJK字符与拉丁字母的混合输入
训练数据策略的三大创新:
- 数据量倍增:预训练token达36万亿(Qwen2.5的2倍),其中非英语数据占比提升至45%
- 多模态清洗:使用Qwen2.5-VL从PDF等文档提取文本,经质量过滤后加入训练
- 合成数据增强:通过Qwen2.5-Math/Coder生成代码题解、数学推导等结构化数据
三阶段预训练中,S2阶段专门增加知识密集型数据比例,S3阶段通过长文本微调强化低资源语言的上下文理解,这使得Qwen3在小语种任务上达到GPT-3.5水平。
本答案来源于文章《Qwen3 发布:深入思考与快速响应并存的新一代大语言模型》