A arquitetura técnica do OpenBench é construída sobre a estrutura de avaliação inspect-ai, uma decisão de projeto que lhe confere vantagens significativas de escalabilidade. Ao herdar a funcionalidade básica da inspect-ai, o OpenBench tem um processo de avaliação padronizado, documentação confiável dos resultados e componentes de avaliação comuns.
Os desenvolvedores podem adicionar facilmente novos testes de benchmark ou métricas de avaliação personalizadas com base nessa arquitetura. Devido ao compartilhamento de componentes principais, como o pontuador matemático subjacente, a implementação de novos testes só precisa se concentrar na lógica de teste específica e não precisa duplicar a funcionalidade subjacente. Esse design modular reduz muito os custos de manutenção do sistema e permite que o OpenBench integre continuamente os últimos avanços em metodologias de avaliação.
Essa resposta foi extraída do artigoOpenBench: uma ferramenta de benchmarking de código aberto para avaliar modelos de linguagemO