O CogVLM2 oferece aos desenvolvedores suporte ecológico completo de código aberto:
- base de códigoO repositório do GitHub contém o código completo de treinamento/inferência, a documentação da interface da API e os notebooks de amostra para dar suporte ao ajuste fino da estrutura do PyTorch Lightning.
- variante do modeloO sistema de treinamento de voz é um sistema de treinamento de voz que oferece três pesos oficiais de pré-treinamento para diálogo aprimorado (chat), multilíngue (zh-en) e leve (lite), adaptados a diferentes condições de recursos computacionais.
- Interface estendida: por herança
BasePredictorAs classes podem ser personalizadas para dar suporte a processos de manipulação de dados em particular:
1) Adicione novas entradas modais (por exemplo, dados de nuvem de pontos)
2) Modificar o codificador visual (substituir por CLIP/ViT, etc.)
3) Integração de gráficos de conhecimento externo - Suporte à comunidadeA plataforma ModelScope fornece um serviço de ajuste fino on-line, e a comunidade Huggingface tem discussões técnicas continuamente atualizadas.
Os cenários típicos de desenvolvimento secundário incluem: criação de sistemas visuais de perguntas e respostas específicos de um domínio (por exemplo, análise de imagens médicas), desenvolvimento de chatbots multimodais, criação de ferramentas automatizadas de resumo de vídeo e assim por diante. Recomenda-se começar com o código de demonstração oficial e modificar os parâmetros de configuração do modelo passo a passo.
Essa resposta foi extraída do artigoCogVLM2: modelo multimodal de código aberto para apoiar a compreensão de vídeos e várias rodadas de diálogoO































