Embora o MiniMind-V ofereça suporte a cenários de diálogo com vários gráficos, os seguintes detalhes técnicos precisam de atenção especial em aplicações práticas:
Especificações de construção de dados
- formato de marcaçãoDados multigráficos requerem o uso de
sft_vlm_data_multi.jsonlCada artigo contém de 2 a 4 imagens e diálogos correspondentes. - código de posiçãoEntrada de texto: A entrada de texto é estritamente limitada a 196
@@@Os espaços reservados marcam cada posição da imagem - balança de amostraRecomenda-se que a proporção de dados únicos/múltiplos seja mantida acima de 20:1 para evitar o ajuste excessivo.
Técnicas de treinamento de modelos
- treinamento progressivoPré-treinamento de uma única imagem antes de introduzir o ajuste fino de várias imagens (treinamento em dois estágios)
- Otimização da atençãoAjustes no LMConfig.py
cross_attention_layersCompreensão aprimorada de gráficos cruzados de parâmetros - construção de lotesTamanho do lote: batch_size ≤ 2 é recomendado para cenários com várias imagens para evitar o estouro de memória.
estratégia para aumentar a eficácia
- fusão de recursosModificável
projection.pyA camada MLP no MLP implementa interações avançadas de recursos - reprocessarVerificação baseada em regras do texto de saída (por exemplo, verificação do índice de imagens)
- Avaliação de indicadores: Proposta de personalização de métricas dedicadas, como a precisão inter-relacional (IRA)
Testes empíricos mostram que a versão atual tem uma degradação significativa na qualidade da resposta para mais de 3 entradas de imagem. Para aplicativos de nível industrial, recomenda-se o treinamento incremental em dados comerciais com base em pesos oficiais.
Essa resposta foi extraída do artigoMiniMind-V: treinamento de 1 hora de um modelo de linguagem visual com 26 milhões de parâmetrosO































