Para avaliar um modelo LLM implantado localmente por meio do OpenBench, siga estas etapas:
- Implante os modelos necessários localmente usando o Ollama (por exemplo, modelos de código aberto como o llama3) para garantir que o serviço seja iniciado corretamente
- Configure os pontos de extremidade da API do Ollama no ambiente de tempo de execução do OpenBench (o padrão é http://localhost:11434)
- Executar a ordem de avaliação:
bench eval mmlu --model ollama/模型名称:版本 --limit 50
- aceitável
--temperature
para ajustar a aleatoriedade dos resultados gerados usando o parâmetro--max-tokens
Comprimento da saída de controle - Quando a avaliação estiver concluída, use o
bench view
Comando para exibir relatórios interativos em um navegador
O método é particularmente adequado para cenários que exigem avaliação off-line ou sensibilidade de dados e pode testar de forma abrangente os principais recursos do modelo, como raciocínio e aquisição de conhecimento.
Essa resposta foi extraída do artigoOpenBench: uma ferramenta de benchmarking de código aberto para avaliar modelos de linguagemO