Arquitetura de processamento multimodal para o MiniMind-V
Como um modelo de linguagem visual, o principal destaque técnico do MiniMind-V é sua elaborada arquitetura de processamento multimodal. O sistema tem um codificador visual CLIP integrado (clip-vit-base-patch16), que é capaz de processar uma imagem de entrada de 224 × 224 pixels e transformá-la em 196 tokens visuais.
- Processamento visual:Suporta modos de entrada de imagem única e múltipla
- Fusão de recursos:Alinhamento de recursos visuais com recursos textuais por meio do módulo de projeção de recursos
- Formato de entrada:Use 196 @@@@ placeholders para identificar os locais das imagens
- Compatibilidade de modelos:Os pesos CLIP pré-treinados podem ser baixados do Hugging Face ou do ModelScope
Esse projeto arquitetônico permite que o modelo implemente tarefas multimodais, como descrição de imagens e perguntas e respostas visuais. O projeto também fornece um roteiro completo do processo de treinamento, incluindo duas fases principais, o pré-treinamento e o ajuste fino supervisionado, para garantir a integração profunda dos recursos visuais e linguísticos.
Essa resposta foi extraída do artigoMiniMind-V: treinamento de 1 hora de um modelo de linguagem visual com 26 milhões de parâmetrosO