安全防护体系构建
针对大模型微调的特殊风险,推荐建立三层防护机制:
- Filtern von Daten::
- 预处理阶段使用
SafetyChecker
类(项目utils已集成)扫描训练数据 - 针对敏感领域设置关键词黑名单
- 预处理阶段使用
- 对齐训练::
- 必选步骤:通过
RL_FineTuning/train_ppo.py
进行安全对齐 - Verwenden Sie die vom Projekt bereitgestellten
harmless_replies.json
作为奖励数据
- 必选步骤:通过
- 输出管控::
- 推理时启用
--safety_mode strict
Parameter - 部署后定期更新敏感词库(参考
config/sensitive_keywords.txt
)
- 推理时启用
对于企业级应用,建议叠加审核API实现实时内容过滤。
Diese Antwort stammt aus dem ArtikelQwen3-FineTuning-Playground: eine einsatzbereite Codebasis für die Feinabstimmung der großen Modelle von Qwen3.Die