安全防护体系构建
针对大模型微调的特殊风险,推荐建立三层防护机制:
- Filtragem de dados::
- 预处理阶段使用
SafetyChecker
类(项目utils已集成)扫描训练数据 - 针对敏感领域设置关键词黑名单
- 预处理阶段使用
- 对齐训练::
- 必选步骤:通过
RL_FineTuning/train_ppo.py
进行安全对齐 - Use o
harmless_replies.json
作为奖励数据
- 必选步骤:通过
- 输出管控::
- 推理时启用
--safety_mode strict
parâmetros - 部署后定期更新敏感词库(参考
config/sensitive_keywords.txt
)
- 推理时启用
对于企业级应用,建议叠加审核API实现实时内容过滤。
Essa resposta foi extraída do artigoQwen3-FineTuning-Playground:一个上手即用的Qwen3大模型微调代码库O