海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

Qwen3在多语言支持方面有哪些具体突破?其训练数据策略有何特色?

2025-08-24 1.3 K

多语言能力的技术实现

Qwen3覆盖119种语言和方言,突破性表现在:

  • 语系全覆盖:包含印欧语系(67种)、汉藏语系(3种)、南岛语系(12种)等主流语系,甚至包含卢森堡语、阿萨姆语等低资源语言
  • 方言细分:阿拉伯语支持纳吉迪/埃及/摩洛哥等7种方言变体
  • 混合编码:有效处理中文/日文/韩文等CJK字符与拉丁字母的混合输入

训练数据策略的三大创新:

  1. 数据量倍增:预训练token达36万亿(Qwen2.5的2倍),其中非英语数据占比提升至45%
  2. 多模态清洗:使用Qwen2.5-VL从PDF等文档提取文本,经质量过滤后加入训练
  3. 合成数据增强:通过Qwen2.5-Math/Coder生成代码题解、数学推导等结构化数据

三阶段预训练中,S2阶段专门增加知识密集型数据比例,S3阶段通过长文本微调强化低资源语言的上下文理解,这使得Qwen3在小语种任务上达到GPT-3.5水平。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文