如何解决大型语言模型在复杂任务中决策能力不足的问题？

2025-08-30

1.5 K

提升LLM决策能力的强化学习方案

OpenManus-RL通过以下三步解决该问题：

环境搭建：利用するpython -m openmanus_rl.sft创建基础RL环境，支持自定义任务目标（如购物决策场景）
数据收集：连接Deepseek-R1等模型收集行为轨迹，可通过--dataset_name参数指定预处理数据集
RL调优：运行GRPO命令python -m openmanus_rl.grpo --reward_funcs accuracy，系统会动态优化模型权重

进阶方案：在配置文件中启用Tree-of-Thoughts策略提升长程规划能力，或通过--benchmark AgentBench量化改进效果。