Programa de otimização da eficácia do domínio
A combinação de métodos a seguir pode ser usada para direcionar os aprimoramentos dos indicadores de avaliação especializados:
- Posicionamento do teste de benchmark::
primeira execuçãoevaluate.py --model <path> --benchmark全部Gerar relatórios de avaliação completos identificando áreas de fraqueza (por exemplo, código/matemática) - Aprimoramento de dados::
Para áreas fracas:- fazer uso de
generate.py --task_type代码Geração de dados especializados - Baixe conjuntos de dados de domínio do Hugging Face Hub (por exemplo, The Stack do BigCode)
- fazer uso de
- Ajuste da estratégia de treinamento::
Em multi_stage_training.py:- Aumentar a taxa de lote de dados do domínio (-domain_ratio)
- Ampliar o número de etapas de treinamento para o domínio (-domain_steps)
- Usar a taxa de aprendizado adaptável ao domínio (-domain_lr)
- fusão de modelos::
para o modelo de saída final:- Mesclar vários modelos de especialistas de domínio usando a técnica de conjunto de pontos de verificação
- Otimização de pesos de fusão por varredura hiperparamétrica via wandb
Recomendado após cada rodada de otimização--benchmark单一领域para verificar rapidamente o efeito.
Essa resposta foi extraída do artigoOpen R1: o rosto abraçado replica o processo de treinamento do DeepSeek-R1O































