Posição atual:fig. início " Respostas da IA

Como faço para treinar para uma tarefa de contagem regressiva usando o TinyZero? Quais são as principais etapas?

2025-09-10

3.0 K

O treinamento da tarefa de contagem regressiva é dividido emPré-processamento de dadosresponder cantandotreinamento de modelosAs duas fases são descritas a seguir:

Fase I: Preparação de dados
Execute o comando:python ./examples/data_preprocess/countdown.py --local_dir {数据集路径}
O script será executado automaticamente:

Gerar dados de treinamento que estejam em conformidade com o formato do modelo Qwen
Criação de um modelo de prompt específico para tarefas de raciocínio numérico
Dividir o conjunto de treinamento/validação (proporção padrão 8:2)

Fase II: Início do treinamento
As variáveis de ambiente precisam ser configuradas:

BASE_MODELCaminho do modelo básico (por exemplo, Qwen-1.5B)
DATA_DIRCatálogo de dados pré-processados
EXPERIMENT_NAMEIdentificação da experiência (para registros wandb)

execução finalbash ./scripts/train_tiny_zero.shInicie o treinamento e o sistema o fará automaticamente:

Rede de estratégia e rede de valor do Load VeRL
Iniciar o Monte Carlo Tree Search (MCTS) para otimização da estratégia
Precisão do conjunto de validação de saída por 100 etapas

Duração típica do treinamento: o modelo 1.5B leva cerca de 3,5 horas para atingir a precisão de validação 90%+ em um único H200.

Essa resposta foi extraída do artigoTinyZero: uma réplica de baixo custo do efeito epifânico do DeepSeeK-R1 ZeroO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " Como faço para treinar para uma tarefa de contagem regressiva usando o TinyZero? Quais são as principais etapas?

Como faço para treinar para uma tarefa de contagem regressiva usando o TinyZero? Quais são as principais etapas?

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Como faço para treinar para uma tarefa de contagem regressiva usando o TinyZero? Quais são as principais etapas?

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida