Uma metodologia para o controle de coletores de treinamento multimodal
O treinamento visual-verbal conjunto do MiniMind-V requer estratégias especiais de otimização:
- Treinamento em fases:
- Treine o codificador visual CLIP separadamente (freeze_lm=True)
- Parâmetros de visão fixos para treinar o cabeçote do idioma (freeze_vision=True)
- Ajuste fino final da junta (reduzir learning_rate=1e-5)
- Principais tecnologias:
- Técnica de checkpointing de gradiente (-gradient_checkpointing)
- Uso da atenção flash2 em vez da atenção padrão
- Limitar a resolução a não mais do que 224 x 224 durante o pré-processamento da imagem
- Opções:
- Usando a versão LoRA_V para treinar somente o adaptador de visão
- Use o treinamento progressivo, com resolução de 64×64 primeiro e depois elevada
- O treinamento distribuído divide os módulos de visão/linguagem em diferentes GPUs
A solução comprime o espaço ocupado pela memória de vídeo de um lote de 32 imagens de 38 GB para 22 GB em uma placa de vídeo 3090, possibilitando o treinamento.
Essa resposta foi extraída do artigoMiniMind: 2 horas de treinamento do zero com a ferramenta de código aberto GPT de parâmetros 26MO































