Galileo AI 在 Hugging Face 数据集中心开放了包含 7,800+ 测试案例的完整数据集,涵盖工具调用记录、多轮对话日志和场景标注数据。开发者可下载 xLAM 跨领域测试集进行本地验证,或基于 ToolACE 的 API 交互数据构建定制化评估方案。数据集采用 JSON-LD 标准格式,附带详细的字段说明和评分规则,已有 LangChain 等框架利用该数据优化工具使用链的构建逻辑。
本答案来源于文章《Agent Leaderboard:AI Agent 性能评估排行榜》
Galileo AI 在 Hugging Face 数据集中心开放了包含 7,800+ 测试案例的完整数据集,涵盖工具调用记录、多轮对话日志和场景标注数据。开发者可下载 xLAM 跨领域测试集进行本地验证,或基于 ToolACE 的 API 交互数据构建定制化评估方案。数据集采用 JSON-LD 标准格式,附带详细的字段说明和评分规则,已有 LangChain 等框架利用该数据优化工具使用链的构建逻辑。
本答案来源于文章《Agent Leaderboard:AI Agent 性能评估排行榜》
该平台首次实现性能与成本的联合可视化分析,表格中直接标注 Gemini-2.0 Flash($0.15/百万 ...
TSQ 评分系统从准确性、适应性和完成度三个维度量化 AI 代理的工具使用能力。测试数据显示,当前排名首位的 ...
Agent Leaderboard 由 Galileo AI 在 Hugging Face 平台推出,通过整合...
目标用户群体开发者:快速验证模型在工具调用、多步推理等场景的实用性。企业技术团队:基于成本效率(如每百万 to...
多领域数据分析方法1. 查看详细报告:点击任一模型名称(如 Gemini-1.5-Pro),会弹出具体性能报告...
TSQ 评分详解TSQ(Tool Selection Quality)是 Agent Leaderboard ...
基本操作流程1. 访问网站:打开浏览器,访问 Agent Leaderboard,无需注册即可浏览排行榜。2....
Agent Leaderboard 简介Agent Leaderboard 是由 Galileo AI 在 H...
输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。
Video Face Swap
Codeium(Windsurf Editor):免费的AI代码补全与聊天工具,Windsurf以对话方式编写完整项目代码
Cursor试用期重置工具:解决Cursor试用期限制问题,轻松重置试用期,避免升级到专业版
PocketPal AI
Jan:开源离线AI助手,ChatGPT 替代品,运行本地AI模型或连接云端AI
Roo Code(Roo Cline):基于Cline的增强版自主编程助手,智能化IDE编程助手
MagicQuill:智能交互式图像涂鸦编辑系统,精准局部涂鸦编辑
FaceFusion:视频换脸增强工具|语音同步视频嘴型动作
Cherry Studio:集成API/Web/本地模型的AI助手桌面客户端
gibberlink:两个AI智能体间高效音频通信的演示项目
DeepMosaics:自动去除图像和视频中的马赛克,或向其添加马赛克
豆包
Frame0:用于将想法快速转换为线框图的设计工具
AI风水:分析家居布局以改善运气的智能工具
神数AI:免费使用的AI八字排盘与合婚分析工具
Kode:Claude Code 开源优化版
MCP ECharts:生成ECharts可视化图表的MCP工具
Nanocoder:在本地终端运行的代码生成工具
LlamaFarm:在本地快速部署AI模型与应用的开发框架
DbRheo-CLI:使用自然语言操作数据库和分析数据的命令行工具
M3-Agent:一个拥有长期记忆并能处理音视频的多模态智能体
AlignLab:用于对齐大语言模型的综合工具集
AI Proxy Worker:在Cloudflare上部署AI服务的安全代理工具
AIWeChatauto:自动创作并发布微信公众号内容的AI工具
回顶部
微信扫码分享