硬件要求
- 显存限制:
- 基础模型需要12GB+显存
- 完整流程推荐16GB以上
- 多GPU需通过CUDA_VISIBLE_DEVICES指定
- 计算优化:
- 显存不足时可降低sample_size
- 复杂任务建议分阶段处理
模型兼容性
- 目前最佳适配30B参数以下的模型
- 部分奖励模型需要特定格式输入
- 多模态模型支持仍在开发中
优化效果边界
- 基础模型能力决定上限
- 领域特异性任务需要定制奖励模型
- 连续优化3-5轮后收益递减
问题排查
- API连接问题检查vLLM服务状态
- 输出异常时确认奖励模型匹配度
- 建议优先使用项目提供的示例配置
本答案来源于文章《TPO-LLM-WebUI:输入问题即可实时训练模型输出结果的AI框架》