Um esquema prático para alinhamento de recursos multimodais
O MiniMind-V aborda os principais desafios do alinhamento de recursos visuais e verbais usando a seguinte abordagem inovadora:
- Opções de codificação visual::
- Os recursos visuais foram extraídos diretamente usando o modelo pré-treinado do CLIP (196 tokens)
- Preservação do poderoso espaço semântico multimodal do CLIP
- Design da camada de projeção::
- O módulo dedicado de projeção de recursos conecta as modalidades visual e verbal
- Mapeamento das dimensões do token de imagem para o espaço de entrada do modelo de linguagem
- Alinhamento eficiente com camadas lineares simples
- Otimização das estratégias de treinamento::
- A fase de pré-treinamento ajusta apenas a camada de projeção e a camada final do modelo de linguagem
- Descongelamento gradual de mais parâmetros durante a fase de ajuste fino
- Aprimoramento da compreensão multimodal usando perda de aprendizado por contraste
Sugestão prática: para conjuntos de dados personalizados, você pode congelar o codificador visual para treinar somente a camada de projeção por 1-2 épocas primeiro e, em seguida, descongelar mais parâmetros depois que a perda estiver estável. O projeto fornece um script completo de monitoramento de alinhamento, que pode ser usado para observar as alterações na distribuição espacial dos recursos por meio do wandb.
Essa resposta foi extraída do artigoMiniMind-V: treinamento de 1 hora de um modelo de linguagem visual com 26 milhões de parâmetrosO