海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

如何防止Qwen3微调过程中出现的安全风险?

2025-08-28 27

安全防护体系构建

针对大模型微调的特殊风险,推荐建立三层防护机制:

  • 数据过滤
    • 预处理阶段使用SafetyChecker类(项目utils已集成)扫描训练数据
    • 针对敏感领域设置关键词黑名单
  • 对齐训练
    • 必选步骤:通过RL_FineTuning/train_ppo.py进行安全对齐
    • 使用项目提供的harmless_replies.json作为奖励数据
  • 输出管控
    • 推理时启用--safety_mode strict参数
    • 部署后定期更新敏感词库(参考config/sensitive_keywords.txt

对于企业级应用,建议叠加审核API实现实时内容过滤。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文