海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

Qwen3的训练数据规模与质量构建认知优势

2025-08-24 1.3 K

数据工程创新的规模效应

Qwen3的预训练数据量达到36万亿token,是前代Qwen2.5的两倍,覆盖STEM、编程、学术论文等高质量内容。技术报告揭示,其数据构建包含三个关键阶段:4K上下文的基础训练(30万亿token)、知识密集型数据优化(5万亿token),以及32K-128K长上下文扩展训练。数据来源除通用网页外,还包含PDF文档解析(准确率92.3%)和Qwen2.5系列模型生成的合成数据。

质量提升措施包括:

  • 使用Qwen2.5-VL模型优化多模态文本提取
  • 采用Qwen2.5-Math生成数百万数学推理示例
  • 基于Qwen2.5-Coder增强代码数据多样性
  • 实施五级内容安全过滤机制

基准测试表明,Qwen3-32B基础模型在MATH、HumanEval等专业评测上超过Qwen2.5-72B版本,验证了数据质量对模型能力的决定性影响。这种数据优势使得小规模模型(如4B参数)也能处理传统需要70B参数级模型的任务。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る

ja日本語