当前位置：首页 » AI答疑

如何防止Qwen3微调过程中出现的安全风险？

2025-08-28

248

安全防护体系构建

针对大模型微调的特殊风险，推荐建立三层防护机制：

数据过滤：
- 预处理阶段使用SafetyChecker类（项目utils已集成）扫描训练数据
- 针对敏感领域设置关键词黑名单
对齐训练：
- 必选步骤：通过RL_FineTuning/train_ppo.py进行安全对齐
- 使用项目提供的harmless_replies.json作为奖励数据
输出管控：
- 推理时启用--safety_mode strict参数
- 部署后定期更新敏感词库（参考config/sensitive_keywords.txt）

对于企业级应用，建议叠加审核API实现实时内容过滤。