Programa de aprimoramento da qualidade dos dados
O Open-Reasoner-Zero oferece uma solução completa para problemas de dados:
- Conjunto de dados de alta qualidade de 57 milO conjunto de dados pré-processados que acompanha o projeto foi examinado em vários estágios e contém:
- 20k de dados do GPQA Diamond Standards
- 15 mil dados de raciocínio lógico
- 22 mil dados de decisão em várias etapas
- Processos personalizados de tratamento de dadosDisponível no diretório src/data_processing:
clean_raw_data.py- Limpeza de dados brutosgenerate_synthetic.py- Geração de dados sintéticosquality_filter.py- Filtragem de qualidade (limite de PPL definido como 2,5 por padrão)
Programa de dados ampliado
Para adicionar dados específicos do campo:
- acumular
custom_data/Catálogo para armazenar novos dados - modificações
config.yamlO parâmetro data_mix_ratio controla a taxa de mistura de dados no - Recomendação de uso do Jupyter Notebook para verificar interativamente a qualidade dos dados
Essa resposta foi extraída do artigoOpen-Reasoner-Zero: plataforma de treinamento de aprendizado por reforço de raciocínio em larga escala de código abertoO































