安全防护体系构建
针对大模型微调的特殊风险,推荐建立三层防护机制:
- 数据过滤:
- 预处理阶段使用
SafetyChecker类(项目utils已集成)扫描训练数据 - 针对敏感领域设置关键词黑名单
- 预处理阶段使用
- 对齐训练:
- 必选步骤:通过
RL_FineTuning/train_ppo.py进行安全对齐 - 使用项目提供的
harmless_replies.json作为奖励数据
- 必选步骤:通过
- 输出管控:
- 推理时启用
--safety_mode strict参数 - 部署后定期更新敏感词库(参考
config/sensitive_keywords.txt)
- 推理时启用
对于企业级应用,建议叠加审核API实现实时内容过滤。
本答案来源于文章《Qwen3-FineTuning-Playground:一个上手即用的Qwen3大模型微调代码库》









