Agent Leaderboard 由 Galileo AI 在 Hugging Face 平台推出,通过整合 4 个权威数据集(BFCL、τ-bench、xLAM 和 ToolACE)对 17 种主流大型语言模型进行全方位测试。其评估体系覆盖 390+ 真实业务场景,包括数学计算、零售分析、航空数据解析等典型领域,并针对 API 调用、多工具协同等复杂场景设置专项测试。每月动态更新的机制确保及时纳入 GPT-4o、Gemini-2.0 等最新模型,测试维度包含工具选择质量(TSQ)评分和每百万 token 成本等核心指标,为开发者提供开箱即用的性能对比框架。
This answer comes from the articleAgent Leaderboard: AI Agent Performance Evaluation RankingsThe