MiroFlowは主要な大規模言語モデルとしてClaude Sonnet 3.7を使用し、GAIA検証セットで72.2%(3回の実行の平均)の合格@1スコア率を達成しました。この性能はオープンソースの知的ボディフレームワークの最先端であり、複雑なマルチツールタスクを処理する能力を実証しています。
第一に、多くのオープンソースプロジェクトに欠けているフレームワークの安定性と再現性を検証したこと、第二に、完全にオープンな評価スクリプトと設定ファイルを公式に提供し、HuggingFaceの複数の独立した実行によるデータを公開することで、結果の透明性を確保したこと、そして最後に、このベンチマークが開発者にフレームワークを選択するための客観的な性能基準を提供したことである。
この答えは記事から得たものである。MiroFlow:AIインテリジェンスを構築、管理、拡張するためのフレームワークについて