O MiroFlow alcançou uma taxa de pontuação pass@1 de 72,2% (média de três execuções) no conjunto de validação GAIA usando o Claude Sonnet 3.7 como o principal modelo de linguagem grande. Esse desempenho está na vanguarda das estruturas de corpo inteligente de código aberto, demonstrando sua capacidade de lidar com tarefas complexas de várias ferramentas.
A importância dessa conquista está no seguinte: em primeiro lugar, ela verifica a estabilidade e a reprodutibilidade da estrutura, o que falta em muitos projetos de código aberto; em segundo lugar, o fornecimento oficial de scripts de avaliação e arquivos de configuração totalmente abertos e a liberação de dados de várias execuções independentes no HuggingFace garantem a transparência dos resultados; e, por último, esse benchmark fornece aos desenvolvedores uma referência objetiva de desempenho para escolher uma estrutura.
Essa resposta foi extraída do artigoMiroFlow: uma estrutura para criar, gerenciar e dimensionar inteligências de IAO