海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

如何改善爬取结果在LLM预训练中的适用性?

2025-09-05 1.4 K

关键问题

原始爬取数据需要经过处理才能满足模型训练要求。

优化方法

  • 文本提取优化:运行fetch_docs.py时添加–clean_html参数去除页面标签
  • 内容分段:在YAML中配置max_length避免过长段落
  • 多语言支持:使用多语言fastText模型评估非英语内容
  • 采样策略:交替使用dclm_fasttext_score和random模式获取数据多样性

效果验证

通过access_data.py抽查文档质量,建议检查内容包括:主题相关性、文本连贯性、信息密度等指标。优质数据应同时满足:
1) fasttext_score ≥ 0.8
2) length ∈ [500,2000]字符

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文