MiroFlow在GAIA验证集上使用Claude Sonnet 3.7作为主要大型语言模型时,取得了72.2%的pass@1得分率(三次运行平均值)。这一表现在开源智能体框架中处于前沿水平,证明了其处理复杂多工具任务的能力。
该成绩的意义在于:首先,它验证了框架的稳定性和可复现性,这是许多开源项目缺乏的;其次,官方提供了完全开放的评估脚本和配置文件,并在HuggingFace上发布了多次独立运行数据,确保了结果的透明度;最后,这一基准为开发者选择框架提供了客观的性能参考。
本答案来源于文章《MiroFlow:一个用于构建、管理和扩展AI智能体的框架》