小数据建模解决方案
当训练数据不足2000条时,可采用以下方法提升效果:
- データ強化:使用GPT-4生成语义相似的扩展对话,注意保持原有语言风格。推荐prompt格式:”请用[用户名]的风格改写以下对话:…”
- 伝達学習:先加载知乎、微博等公开对话数据进行预训练,再微调个人数据。修改settings.json中的
pretrained_path
パラメトリック - 正则化技术:设置dropout_rate=0.3,同时启用early stopping(耐心值设为5个epoch)
另外建议:1) 使用K-fold交叉验证 2) 限制LoRA秩≤16 3) 添加标签平滑(smoothing=0.1)。训练完成后务必用web_demo.py --test_mode=true
进行过拟合检测
この答えは記事から得たものである。WeClone:WeChatのチャットログと音声を使ったデジタル・ドッペルゲンガーの育成について