如何防止Qwen3微调过程中出现的安全风险？

2025-08-28

安全防护体系构建

针对大模型微调的特殊风险，推荐建立三层防护机制：

data filtering::
- 预处理阶段使用SafetyChecker类（项目utils已集成）扫描训练数据
- 针对敏感领域设置关键词黑名单
对齐训练::
- 必选步骤：通过RL_FineTuning/train_ppo.py进行安全对齐
- Use the project-suppliedharmless_replies.json作为奖励数据
输出管控::
- 推理时启用--safety_mode strictparameters
- 部署后定期更新敏感词库（参考config/sensitive_keywords.txt)

对于企业级应用，建议叠加审核API实现实时内容过滤。