As seguintes estratégias de otimização podem ser usadas ao realizar testes de comparação de vários modelos por meio do OpenBench:
- fazer uso de
--max-connections
Parâmetro para ajustar o número de solicitações simultâneas (padrão 10), de acordo com as configurações razoáveis da cota da API - direito
bench eval
Uso do comando--model
Vários valores de parâmetros são testados simultaneamente para vários modelos, por exemplo--model groq/llama-3.3-70b openai/o3-2025-04-16
- aprovar (um projeto de lei ou inspeção etc.)
--limit
Execute um pequeno teste de amostra (por exemplo, 50 barras) primeiro para verificar a exatidão do processo antes de executá-lo em volume total - Para o modelo de API de faturamento, o ajuste
--json
Emitir resultados intermediários para evitar interrupções não intencionais - Armazene em cache os resultados do modelo de teste de alta frequência no
./logs/
catálogo, por meio dobench view
Faça uma comparação lado a lado
Essa resposta foi extraída do artigoOpenBench: uma ferramenta de benchmarking de código aberto para avaliar modelos de linguagemO