O MiroFlow demonstrou excelente desempenho nos testes de desempenho do GAIA Validation Set:
- Ao usar o Claude Sonnet 3.7 como o principal modelo de linguagem em grande escala
- Taxa de pontuação Pass@1 de 72,21 TP3T em média em três execuções
- Esse desempenho está na vanguarda das estruturas de carroceria inteligente de código aberto
Notavelmente, o MiroFlow dá ênfase especial à reprodutibilidade de seu desempenho, fornecendo scripts e perfis de avaliação totalmente abertos e publicando várias execuções de rastreamento GAIA independentes no HuggingFace para garantir a transparência e a confiabilidade dos resultados.
Essa resposta foi extraída do artigoMiroFlow: uma estrutura para criar, gerenciar e dimensionar inteligências de IAO