Web界面操作指南
- Initialization Model::
- 连接vLLM服务(默认端口8000)
- 加载奖励模型(需1-2分钟初始化)
- 输入优化任务::
- 在”优化设置”界面输入问题/指令
- 示例:”将这段技术描述改写得更专业”
- Startup Optimization::
- 点击”开始优化”按钮
- 系统自动生成5个候选结果(可调)
- Check out the evolutionary process::
- 界面实时显示各迭代版本
- 支持结果对比和评分查看
command-line mode
高级用户可通过run.py脚本批量处理:
python run.py --data_path sample.json --max_iterations 2
优化策略调整
- 修改sample_size控制生成候选数量
- 调整max_iterations设置优化轮次
- 通过reward_model_path更换评估标准
This answer comes from the articleTPO-LLM-WebUI: An AI framework where you can input questions to train a model to output results in real timeThe