A execução do MiniMind-V requer uma operação sistemática que segue quatro etapas: configuração do ambiente → preparação dos dados → treinamento do modelo → teste de efeitos:
Configuração do ambiente
- fazer uso de
git cloneFaça o download do código do projeto, ambiente Python ≥ 3.9 recomendado - Instale as dependências por meio do espelho de origem da Tsinghua:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple - Faça o download do CLIP Visual Coder para
./model/vision_modeldiretório (no disco rígido do computador)
Preparação de dados
- estabelecer
./datasetCatálogo e download de aproximadamente 5 GB de dados de pré-treinamento - Devem ser incluídos três arquivos de anotação no formato JSONL (pré-treinamento/ajuste fino de uma única imagem/ajuste fino de várias imagens) e as imagens correspondentes.
- A imagem será redimensionada para a resolução 224×224 por padrão
treinamento de modelos
Um processo típico consiste em dois estágios:
- pré-treinamento: Executar
train_pretrain_vlm.pyCongelar o CLIP para treinar somente a camada de projeção (cerca de 1 hora/época) - ajuste fino: Implementação
train_sft_vlm.pyDescongelamento de modelos de linguagem para treinamento de ponta a ponta
Teste de eficácia
Há suporte para dois tipos de autenticação:
- Interação com a linha de comando:
python eval_vlm.pyCarregar pesos de treinamento - Interface da Web:
python web_demo_vlm.pyInício de um serviço local para testes visuais
Dica importante: se a memória de vídeo não for suficiente (<24 GB), você precisará ajustar o parâmetro batch_size no LMConfig.py.
Essa resposta foi extraída do artigoMiniMind-V: treinamento de 1 hora de um modelo de linguagem visual com 26 milhões de parâmetrosO































