海外访问：www.kdjingpai.com

Ctrl + D 收藏本站

当前位置：首页 » AI答疑

Agent Leaderboard 中的 TSQ 评分是什么？它如何帮助开发者选择模型？

2025-08-30

1.5 K

TSQ 评分详解

TSQ（Tool Selection Quality）是 Agent Leaderboard 的核心评估指标，用于衡量 AI 代理在工具使用中的准确性。

评估维度

工具选择准确性：模型是否能正确识别和使用所需工具。
多工具协同能力：在复杂任务中协调多个工具的表现。
场景适应性：在不同领域（如数学、零售、航空）中的稳定性。

实用建议

根据 TSQ 得分：

高分模型（0.85+）：适合复杂工作流场景（如 GPT-4o 在多工具任务中表现优异）。
中低分模型：可考虑用于简单 API 交互或预算优先的项目（如 Gemini-2.0 Flash 的成本仅 $0.15/百万 token）。

本答案来源于文章《Agent Leaderboard：AI Agent 性能评估排行榜》

相关文章

未经允许不得转载：AI生产力工具 » Agent Leaderboard 中的 TSQ 评分是什么？它如何帮助开发者选择模型？

相关推荐