领域适配性提升全流程
要实现专业领域性能突破,需要数据工程与训练策略的协同优化:
- データ準備段階:建议收集至少5000条领域QA数据,格式参照项目提供的
dirty_chinese_dpo.json
,需包含:(1)完整问答上下文 (2)领域专业术语 (3)典型错误案例 - 训练策略选择::
- 基础能力构建:先用全量数据监督微调(SFT)
train_sft_dirty.py
训练3-5轮 - 精细校准:采用ORPO算法进行偏好对齐,使用
RL_FineTuning/train_orpo.py
脚本,注入领域专家标注的优劣样本对
- 基础能力构建:先用全量数据监督微调(SFT)
- 検証方法:项目推理脚本支持批测试模式(
--mode batch
),建议准备200条验证集通过自动化评测
特别注意:医疗/法律等高风险领域建议叠加知识检索模块,避免纯生成式风险。
この答えは記事から得たものである。Qwen3-FineTuning-Playground:一个上手即用的Qwen3大模型微调代码库について