Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O OpenBench é uma ferramenta de avaliação de modelos de linguagem de código aberto que não se restringe a um fornecedor de modelos específico. Os desenvolvedores podem usá-la para realizar avaliações de desempenho padronizadas e reproduzíveis de modelos de linguagem em mais de 20 conjuntos de testes de benchmark que abrangem uma ampla gama de domínios, como conhecimento, raciocínio, codificação e matemática. Ele oferece uma interface de linha de comando simples que permite aos usuários iniciar tarefas de avaliação com apenas alguns comandos. A ferramenta oferece suporte a uma ampla gama de provedores de serviços de modelos convencionais, como Groq, OpenAI, Anthropic e Google, e também é compatível com modelos nativos executados pelo Ollama. Como ela foi desenvolvida com base eminspect-aiO OpenBench foi desenvolvido com base na estrutura e, portanto, é extensível, permitindo que os desenvolvedores adicionem facilmente novos benchmarks e métricas de avaliação. Isso torna o OpenBench uma plataforma flexível e fácil de usar para a avaliação do desempenho do modelo.

Lista de funções

  • Suporta mais de 20 benchmarksMMLU, GPQA, HumanEval, SimpleQA e uma variedade de avaliações de matemática em nível de competição, como AIME e HMMT.
  • Interface de linha de comando (CLI) simples: Fornecidobench listebench describeebench evale outros comandos simples e intuitivos para gerenciar e executar revisões.
  • Compatível com vários fornecedores de modelosSuporte para mais de 15 fornecedores de modelos, incluindo Groq, OpenAI, Anthropic, Google, AWS Bedrock, Azure e outros.
  • Suporte para modelos locaisPode ser integrado ao Ollama para avaliar modelos de linguagem executados localmente.
  • Construído em uma estrutura padrão: Construído sobreinspect-aiA estrutura de avaliação está no topo da estrutura de avaliação, o que garante a normalidade e a confiabilidade da avaliação.
  • Altamente escalávelPermite que os desenvolvedores adicionem facilmente novos projetos de benchmarking e métricas de avaliação personalizadas.
  • Visualização interativa de resultados: Fornecidobench viewé possível visualizar o log de avaliação na interface interativa do usuário.
  • Configuração de avaliação flexívelOs usuários podem configurar o processo de avaliação do modelo em detalhes por meio de parâmetros de linha de comando ou variáveis de ambiente, como definir a temperatura, o número máximo de tokens, o número de solicitações simultâneas e assim por diante.

Usando a Ajuda

O OpenBench oferece um conjunto completo de ferramentas para avaliação comparativa padronizada de modelos de linguagem grandes (LLMs). A seção a seguir descreve em detalhes como instalar e usar a ferramenta para avaliar os modelos.

1. preparação e instalação do ambiente

Antes de poder usar o OpenBench, você precisa instalar o pacote uvÉ um instalador rápido de pacotes Python e um gerenciador de ambiente virtual.

Etapa 1: Instale o uv (se ainda não estiver instalado)
uv O processo de instalação é muito simples, e você pode consultar a documentação oficial. Após a conclusão da instalação, você pode começar a preparar o ambiente do OpenBench.

Etapa 2: Crie e ative o ambiente virtual
Para manter as dependências do projeto isoladas, é recomendável criar um novo ambiente virtual.

# 创建一个名为 .venv 的虚拟环境
uv venv
# 激活该虚拟环境 (在Linux或macOS上)
source .venv/bin/activate

Etapa 3: Instalar o OpenBench
Depois de ativar o ambiente virtual, use o comando uv para instalar o OpenBench.

uv pip install openbench```
这个命令会自动处理所有必需的依赖项。
### **2. 配置 API 密钥**
OpenBench 支持多家模型供应商,你需要设置相应的 API 密钥才能使用它们的模型。密钥通过环境变量进行配置。
```bash
# 示例:设置 Groq 的 API 密钥
export GROQ_API_KEY="你的密钥"
# 示例:设置 OpenAI 的 API 密钥
export OPENAI_API_KEY="你的密钥"
# 示例:设置 Anthropic 的 API 密钥
export ANTHROPIC_API_KEY="你的密钥"```
你只需要设置你计划使用的那个供应商的密钥即可。
### **3. 运行评估任务**
配置完成后,你就可以通过 `bench eval` 命令来运行一个评估任务。
**基本命令格式:**
`bench eval <基准测试名称> --model <模型名称>`
**快速上手示例:**
让我们以`mmlu`基准测试为例,使用Groq提供的`llama-3.3-70b-versatile`模型,并只评估10个样本。
```bash
bench eval mmlu --model groq/llama-3.3-70b-versatile --limit 10
  • mmluNome do teste de benchmark: Este é o nome do teste de benchmark.
  • --model groq/llama-3.3-70b-versatileEspecifique o modelo a ser avaliado.
  • --limit 10Indica que apenas 10 amostras do conjunto de dados foram selecionadas para teste, o que permite obter resultados rápidos na primeira tentativa.

Depois que a tarefa de avaliação é concluída, os resultados são salvos por padrão no diretório do projeto sob o nome ./logs/ pasta.

4. visualizar os resultados da avaliação

Você tem duas maneiras de visualizar os resultados:

Maneira 1: visualizar diretamente o arquivo de registro
Os registros de resultados são arquivos de texto simples ou JSON que podem ser abertos diretamente com um editor de texto localizado no diretório ./logs/ para visualizar os arquivos de registro.

Abordagem 2: Uso de interfaces interativas
O OpenBench oferece uma interface mais amigável e interativa para a apresentação de resultados.

bench view
```该命令会启动一个本地服务,让你可以在浏览器中直观地浏览和分析历次评估的结果。
### **5. 主要命令和常用选项**
OpenBench 的核心功能通过 `bench` 命令暴露。
- `bench --help`: 显示所有可用的命令和全局选项。
- `bench list`: 列出所有可用的基准测试、模型和标志。
- `bench eval <benchmark>`: 运行指定的基准测试。
- `bench view`: 启动交互式界面查看日志。
#### **`eval` 命令的关键选项**
`eval` 命令支持丰富的选项来控制评估流程,你可以通过命令行参数或环境变量来设置。
| 选项 | 环境变量 | 描述 |
| --- | --- | --- |
| `--model` | `BENCH_MODEL` | 指定要评估的一个或多个模型。 |
| `--limit` | `BENCH_LIMIT` | 限制评估样本的数量,可以是具体数字或范围(如`10,20`)。 |
| `--temperature` | `BENCH_TEMPERATURE` | 设置模型的生成温度,影响输出的随机性。 |
| `--max-connections`| `BENCH_MAX_CONNECTIONS`| 设置与模型API的最大并行连接数,默认为10。 |
| `--logfile` | `BENCH_OUTPUT` | 指定保存结果的日志文件路径。 |
| `--sandbox` | `BENCH_SANDBOX` | 指定代码执行的环境,如`local`或`docker`,用于HumanEval等编码测试。 |
| `--json` | 无 | 如果设置此项,结果将以JSON格式输出。 |
### **6. 使用不同供应商或本地模型**
你可以轻松切换不同的模型供应商。
```bash
# 使用 OpenAI 的模型
bench eval humaneval --model openai/o3-2025-04-16
# 使用 Google 的模型
bench eval mmlu --model google/gemini-2.5-pro
# 使用通过 Ollama 运行的本地模型
# 确保 Ollama 服务正在运行
bench eval musr --model ollama/llama3.1:70b

7. manuseio de downloads de conjuntos de dados de rostos abraçados

Alguns benchmarks exigem que um conjunto de dados seja baixado do Hugging Face. Se você encontrar um erro "gated", o conjunto de dados requer autenticação do usuário. Você precisará definir o token de acesso ao Hugging Face.

export HF_TOKEN="你的HuggingFace令牌"

Após concluir as etapas acima, execute novamente o bench eval resolverá o problema.

cenário do aplicativo

  1. Modelagem de pesquisa e desenvolvimento
    Os pesquisadores e desenvolvedores que estão desenvolvendo novos modelos de linguagem podem usar o OpenBench para testar rapidamente o desempenho de novos modelos em vários benchmarks padrão do setor e compará-los quantitativamente com os modelos convencionais existentes para validar os aprimoramentos do modelo.
  2. Seleção e aquisição de modelos
    As empresas ou equipes que escolhem o modelo de linguagem certo para seus negócios podem aproveitar o OpenBench para tomar decisões baseadas em dados com uma avaliação de desempenho unificada e justa de modelos candidatos de diferentes fornecedores (por exemplo, OpenAI, Google, Anthropic).
  3. Integração contínua e testes de regressão
    Para cenários que exigem ajustes finos frequentes ou iteração de modelos, o OpenBench pode ser integrado ao processo de CI/CD. Sempre que um modelo é atualizado, um conjunto padronizado de benchmarks é executado automaticamente para garantir que não haja degradação inesperada no desempenho do modelo.
  4. Avaliação do desempenho do modelo local
    Para cenários que se concentram na privacidade dos dados ou que precisam ser executados off-line, os desenvolvedores podem usar o Ollama para implantar modelos de código aberto localmente. O OpenBench pode se conectar ao serviço local do Ollama para avaliar totalmente os recursos de conhecimento, raciocínio e codificação desses modelos locais.

QA

  1. Qual é a diferença entre o OpenBench e o Inspect AI?
    O OpenBench é uma biblioteca de benchmarking criada com base na estrutura do Inspect AI. Pode-se entender que o Inspect AI fornece os recursos e as ferramentas de avaliação subjacentes, sobre os quais o OpenBench fornece implementações prontas para uso de mais de 20 benchmarks convencionais, ferramentas de linha de comando unificadas e utilitários (como pontuadores matemáticos) que são compartilhados entre as análises. O OpenBench se concentra em simplificar o processo de execução de benchmarks padronizados e aprimorar a experiência do desenvolvedor.
  2. Por que escolher o OpenBench em vez de outras ferramentas, como o lm-evaluation-harness ou o lighteval?
    Embora cada uma dessas ferramentas tenha seu próprio foco, o principal ponto forte do OpenBench é a implementação clara, fácil de entender e modificar dos benchmarks. Ele reduz a duplicação de código entre os benchmarks por meio de componentes compartilhados e otimiza a experiência do desenvolvedor por meio de ferramentas de linha de comando simples e padrões de design consistentes. Se você precisa de uma ferramenta fácil de estender e manter, com código de avaliação altamente legível, o OpenBench é uma boa opção.
  3. Como usá-lo fora de um ambiente virtual bench Pedidos?
    Se você quiser fazer chamadas diretamente de qualquer caminho no sistema bench em vez de ativar o ambiente virtual todas as vezes, você pode executar o seguinte comando para a instalação do modo editável depois que o projeto for clonado localmente: uv run pip install -e ..
  4. A execução de uma avaliação faz com que o HuggingFace exija um login, como faço para corrigir isso?
    Isso geralmente ocorre porque o conjunto de dados necessário para a revisão está protegido (fechado) no HuggingFace. Você precisa obter um token de acesso ao HuggingFace e, em seguida, definir a variável de ambiente HF_TOKEN para endereçar. Exemplo:export HF_TOKEN="hf_xxxxxxxx"e, depois disso, execute novamente o comando de revisão.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil