海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

OpenManus-RL集成了哪些基准测试环境?

2025-08-30 1.5 K

内置测试环境

OpenManus-RL预集成四大主流智能体评估体系:

  • GAIA:评测复杂推理能力
  • AgentBench:综合评估响应时间和任务成功率
  • ウェブショップ:专注电商场景决策能力
  • OSWorld:面向多模态任务评估

使用方法

只需在启动命令中添加

--benchmark 环境名

パラメーターがある:

python -m openmanus_rl.grpo --benchmark GAIA

系统将自动运行全套测试并生成包含以下指标的报表:

  • 任务完成率
  • 步骤效率值
  • 错误类型分析
  • 与其他基线的对比数据

评估价值

这些测试环境覆盖了从基础决策到复杂规划的智能体能力光谱,帮助开发者在模型迭代过程中准确定位性能瓶颈。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る

ja日本語