O projeto Open R1 da Hugging Face é um projeto de replicação do DeepSeek-R1 totalmente de código aberto que tem como objetivo criar as partes que faltam do pipeline R1 para que todos possam replicá-las e desenvolvê-las.
Os principais recursos do projeto incluem:
- Natureza de código aberto: o projeto é totalmente de código aberto e oferece suporte à contribuição e à colaboração da comunidade
- Funcionalidade completa: estão disponíveis scripts completos para treinamento e avaliação de modelos e geração de dados sintéticos
- Treinamento em vários estágios: demonstração do processo completo de replicação do pipeline R1, desde o modelo básico até o modelo de ajuste de aprendizagem por reforço
- Facilidade de uso: Inclui instruções detalhadas de instalação e uso para reduzir a barreira ao uso
O projeto Open R1 é orientado pelo relatório técnico do DeepSeek-R1, que replica o processo de treinamento completo em três etapas principais: primeiro, ele replica o modelo R1-Distill, depois replica o processo de aprendizagem por reforço puro e, por fim, demonstra uma transição de treinamento em vários estágios do modelo básico para o ajuste de RL.
Essa resposta foi extraída do artigoOpen R1: o rosto abraçado replica o processo de treinamento do DeepSeek-R1O































