关键问题
原始爬取数据需要经过处理才能满足模型训练要求。
优化方法
- 文本提取优化:运行fetch_docs.py时添加–clean_html参数去除页面标签
- 内容分段:在YAML中配置max_length避免过长段落
- Multi-language support:使用多语言fastText模型评估非英语内容
- 采样策略:交替使用dclm_fasttext_score和random模式获取数据多样性
Effectiveness Verification
通过access_data.py抽查文档质量,建议检查内容包括:主题相关性、文本连贯性、信息密度等指标。优质数据应同时满足:
1) fasttext_score ≥ 0.8
2) length ∈ [500,2000]字符
This answer comes from the articleCrawl4LLM: An Efficient Web Crawling Tool for LLM PretrainingThe