海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

怎样克服小样本场景下的RL训练数据不足问题?

2025-08-30 1.5 K

小样本训练解决方案

利用项目内置的三种应对策略:

  1. 数据增强:在SFT阶段启用--augmentation mixup参数进行语义扩展
  2. 迁移学习:加载预训练模型--model_name_or_path Qwen/Qwen2.5-1.5B-Instruct
  3. 课程学习:curriculum_learning.yaml配置难度递增的任务序列

注意事项:建议初始阶段设置--batch_size 8避免显存溢出,同时启用--use_peft参数进行轻量化微调。可复用GAIA基准中的通用轨迹数据作为辅助训练集。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文