领域定制需完成以下四阶段操作:
- Fase de preparação de dados::
- 收集专业数据并整理为
lora_medical.jsonl
formatação - 建议保持512 token长度以适配模型架构
- 收集专业数据并整理为
- Fase de configuração dos parâmetros::
- modificações
./model/LMConfig.py
acertou em cheion_layers
等参数 - adaptar
batch_size
避免显存溢出(3090建议≤8)
- modificações
- 模型训练阶段::
- realizar
python train_lora.py
启动领域适应训练 - aumentar
--use_wandb
参数监控损失曲线
- realizar
- 部署应用阶段::
- fazer uso de
serve_openai_api.py
Início dos serviços - aprovar (um projeto de lei ou inspeção etc.)
curl
命令测试医疗问答接口
- fazer uso de
注意:专业领域训练建议先进行基础预训练(2-3轮)再进行LoRA微调。
Essa resposta foi extraída do artigoMiniMind: 2 horas de treinamento do zero com a ferramenta de código aberto GPT de parâmetros 26MO