海外访问：www.kdjingpai.com

Ctrl + D 收藏本站

当前位置：首页 » AI答疑

OpenManus-RL集成了哪些基准测试环境？

2025-08-30

1.5 K

内置测试环境

OpenManus-RL预集成四大主流智能体评估体系：

GAIA：评测复杂推理能力
AgentBench：综合评估响应时间和任务成功率
WebShop：专注电商场景决策能力
OSWorld：面向多模态任务评估

使用方法

只需在启动命令中添加

--benchmark 环境名

参数，例如：

python -m openmanus_rl.grpo --benchmark GAIA

系统将自动运行全套测试并生成包含以下指标的报表：

任务完成率
步骤效率值
错误类型分析
与其他基线的对比数据

评估价值

这些测试环境覆盖了从基础决策到复杂规划的智能体能力光谱，帮助开发者在模型迭代过程中准确定位性能瓶颈。

本答案来源于文章《OpenManus-RL：微调大模型强化智能体推理与决策能力》

相关文章

未经允许不得转载：AI生产力工具 » OpenManus-RL集成了哪些基准测试环境？

相关推荐