Galileo AI 在 Hugging Face 数据集中心开放了包含 7,800+ 测试案例的完整数据集,涵盖工具调用记录、多轮对话日志和场景标注数据。开发者可下载 xLAM 跨领域测试集进行本地验证,或基于 ToolACE 的 API 交互数据构建定制化评估方案。数据集采用 JSON-LD 标准格式,附带详细的字段说明和评分规则,已有 LangChain 等框架利用该数据优化工具使用链的构建逻辑。
This answer comes from the articleAgent Leaderboard: AI Agent Performance Evaluation RankingsThe