当前位置：首页 » AI答疑

工具选择质量（TSQ）评分是衡量 AI 代理能力的核心指标

2025-08-30

1.5 K

TSQ 评分系统从准确性、适应性和完成度三个维度量化 AI 代理的工具使用能力。测试数据显示，当前排名首位的 Gemini-2.0 Flash 在复杂工作流场景获得 0.9+ 的 TSQ 得分，其多工具协同处理的错误率比行业基准低 40%。对比来看，GPT-4o 虽然长上下文处理稍弱（得分 0.82），但在 API 交互测试中保持 0.91 的稳定表现。该评分体系已通过 14 个基准测试验证，能准确反映模型在真实业务环境中的工具调用能力差异。

本答案来源于文章《Agent Leaderboard：AI Agent 性能评估排行榜》