TSQ 评分系统从准确性、适应性和完成度三个维度量化 AI 代理的工具使用能力。测试数据显示,当前排名首位的 Gemini-2.0 Flash 在复杂工作流场景获得 0.9+ 的 TSQ 得分,其多工具协同处理的错误率比行业基准低 40%。对比来看,GPT-4o 虽然长上下文处理稍弱(得分 0.82),但在 API 交互测试中保持 0.91 的稳定表现。该评分体系已通过 14 个基准测试验证,能准确反映模型在真实业务环境中的工具调用能力差异。
本答案来源于文章《Agent Leaderboard:AI Agent 性能评估排行榜》