Cenários específicos para conectar o OpenBench a um sistema de integração contínua:
- Defina a variável de ambiente da chave de API na configuração do CI (por exemplo
OPENAI_API_KEY
) - Use uma imagem do Docker ou instale o ambiente uv/OpenBench diretamente
- Escreva scripts de teste, exemplos:
bench eval mmlu --model 待测模型 --json > results.json
- Analisar resultados JSON por meio de ferramentas como jq, definindo limites de precisão para acionar falhas de compilação (por exemplo, <80%)
- Recomendado para ser executado simultaneamente
humaneval
Testes de codificação eaime
Os testes de matemática formam uma avaliação multidimensional - Arquive os resultados históricos em artefatos de CI para facilitar as comparações de desempenho entre as versões.
Esse esquema é particularmente adequado para testes de regressão após o ajuste fino do modelo para detectar problemas de degradação do desempenho a tempo.
Essa resposta foi extraída do artigoOpenBench: uma ferramenta de benchmarking de código aberto para avaliar modelos de linguagemO