Histórico
O treinamento do Visual Language Model (VLM) normalmente requer recursos computacionais e custos de tempo significativos, o que representa um limite importante para equipes de pesquisa de pequeno e médio porte. O R1-V consegue superar um modelo de 72B com um modelo paramétrico de 2B em 30 minutos a um custo de US$ 3 por meio de um mecanismo de recompensa de aprendizagem por reforço e um projeto arquitetônico inovador.
Soluções essenciais
- Configuração de hardware8 GPUs A100 são usadas para criar o ambiente de treinamento e fazer uso total da capacidade de computação paralela.
- Otimização do treinamento::
- Correção automática da tendência do modelo por meio do aprendizado por reforço usando mecanismos de recompensa verificáveis
- Implementar estratégias de aprendizagem curricular que priorizem o treinamento em habilidades de reconhecimento de características-chave
- Congelar os parâmetros da camada de base e fazer o ajuste fino apenas da estrutura de rede da camada superior
- controle de custos::
- Limite estritamente as etapas de treinamento a 100 ou menos
- Reduzir o uso da memória de vídeo com treinamento de precisão mista
- Evitar o ajuste excessivo usando um mecanismo de parada antecipada
procedimento
- Clonagem de repositórios do GitHub e instalação de dependências
- Prepare um conjunto de dados anotados com menos de 1 GB (recomenda-se COCO ou Flickr 30k)
- Modifique os parâmetros batch_size=32 e max_steps=100 em config.yaml
- Iniciar o script de treinamento distribuído torchrun -nproc_per_node=8 train.py
- Valide as métricas a cada 10 etapas e pare assim que as expectativas forem atendidas
Essa resposta foi extraída do artigoR1-V: Aprendizado de reforço de baixo custo para a capacidade de generalização de modelos de linguagem visualO































