优化数据集质量的实用方法
要确保生成的微调数据集既准确又符合特定场景需求,可以通过以下方法实现:
- 仔细配置系统提示:在Settings的Prompts模块中添加明确的指令,引导生成的问答内容符合领域特点
- 多轮迭代优化:首轮生成后,利用工具的编辑功能修正所有不准确或偏离主题的内容
- 数据集优化功能:使用内置的Optimize功能自动检测并删除重复或低质量数据
- API模型选择:根据需求选择最适合的基础模型,技术文档可使用GPT-4,一般知识问答可选择成本较低的模型
特别建议:对于关键领域的数据集,可以采用’先生成后精修’的模式。先批量生成基础数据,然后邀请领域专家参与审核修改。这样既能保持高效率,又能确保最终质量。
Essa resposta foi extraída do artigoEasy Dataset: uma ferramenta fácil para criar grandes conjuntos de dados com ajuste fino de modelosO