Overseas access: www.kdjingpai.com
Bookmark Us
Current Position:fig. beginning " AI Answers

工具选择质量(TSQ)评分是衡量 AI 代理能力的核心指标

2025-08-30 1.5 K

TSQ 评分系统从准确性、适应性和完成度三个维度量化 AI 代理的工具使用能力。测试数据显示,当前排名首位的 Gemini-2.0 Flash 在复杂工作流场景获得 0.9+ 的 TSQ 得分,其多工具协同处理的错误率比行业基准低 40%。对比来看,GPT-4o 虽然长上下文处理稍弱(得分 0.82),但在 API 交互测试中保持 0.91 的稳定表现。该评分体系已通过 14 个基准测试验证,能准确反映模型在真实业务环境中的工具调用能力差异。

Recommended

Can't find AI tools? Try here!

Just type in the keyword Accessibility Bing SearchYou can quickly find all the AI tools on this site.

Top

en_USEnglish