教育数据清洗的全流程方案
CleanTool提供三步数据优化法:
- 基础清洗:执行标准命令去除重复项和低质量数据
python clean_tool.py --input raw_data.json --output stage1.json --gpu True
- 领域强化:通过–edu_keywords参数保留含”教学””认知”等教育特征的数据
python clean_tool.py --input stage1.json --output final_data.json --edu_keywords teaching,learning
- 质量验证:使用–metrics参数生成数据质量报告(包含词汇密度、主题一致性等指标)
对特殊场景的建议:
- 心理咨询数据:增加–sentiment_filter参数保留情感丰富的对话
- 多语言数据:搭配–lang en/zh参数实现语种分离
- 大规模处理:采用–batch_size 1024提升处理效率
本答案来源于文章《EduChat:开源教育对话模型》