Há cinco etapas principais para avaliar um modelo usando o OpenBench:
- construção de ambientes: através de
uv venv
Criação de um ambiente virtual e instalação do pacote openbench - Configuração de chaveAPI do modelo de destino: defina a chave de API do modelo de destino (por exemplo, a chave de API do modelo de destino).
export OPENAI_API_KEY='密钥'
) - inicialização da missão (computação): Executar
bench eval
Especificar testes de benchmark (por exemplo, mmlu) e modelos (por exemplo, groq/llama-3.3-70b) - parametrizaçãoOpcionalmente, por meio de
--limit
Limitar o tamanho da amostra ou--temperature
Regulação da estocasticidade - Visualização de resultados: Uso
bench view
Inicie a interface interativa ou visualize-a diretamente./logs/
Arquivos de registro em
Em geral, todo o processo pode ser concluído em menos de 10 minutos para o primeiro teste de validação.
Essa resposta foi extraída do artigoOpenBench: uma ferramenta de benchmarking de código aberto para avaliar modelos de linguagemO