Programa de Garantia de Reprodutibilidade
O Open-Reasoner-Zero oferece suporte total à reprodução:
- Pacote de ambiente completo do Docker::
- Imagens pré-criadas:
docker pull openreasonerzero/official:latest - Controle de versão preciso: o Dockerfile bloqueia o PyTorch 2.0.1 + cu117 e outras dependências principais
- Scripts de validação de ambiente:
./scripts/verify_env.py
- Imagens pré-criadas:
- Sistema de registro experimental::
- geração automática
experiment_log.jsonRegistros:- Hash completo do commit do git
- Versão CUDA/cuDNN
- Todos os valores de sementes aleatórias
- fazer uso de
--enable-wandbServiço Parametric ConnectionsWeights & Biases
- geração automática
Propostas de pesquisa colaborativa
Fluxo de trabalho sugerido:
- Crie uma ramificação experimental:
git checkout -b exp-[实验代号] - modificações
config.yamlAdição de uma nota de modificação quando - fazer uso de
./scripts/snapshot.shGerar um instantâneo do ambiente - Adoção dos padrões de referência do GPQA Diamond como um padrão de avaliação harmonizado
Essa resposta foi extraída do artigoOpen-Reasoner-Zero: plataforma de treinamento de aprendizado por reforço de raciocínio em larga escala de código abertoO































