Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

CogVLM2: modelo multimodal de código aberto para apoiar a compreensão de vídeos e várias rodadas de diálogo

O CogVLM2 é um modelo multimodal de código aberto desenvolvido pelo Grupo de Pesquisa em Mineração de Dados da Universidade de Tsinghua (THUDM), baseado na arquitetura Llama3-8B, com o objetivo de oferecer desempenho comparável ou até melhor que o GPT-4V. O modelo é compatível com a compreensão de imagens, diálogos em várias rodadas e compreensão de vídeo, e é capaz de processar conteúdo de até 8K de comprimento e suportar resoluções de imagem de até 1344×1344. A família CogVLM2 consiste em vários submodelos otimizados para diferentes tarefas, como perguntas e respostas de texto, perguntas e respostas de documentos e perguntas e respostas de vídeo, etc. O modelo não só é compatível com o bilinguismo chinês e inglês, mas também com o bilinguismo chinês e inglês. Os modelos não são apenas bilíngues, mas também oferecem uma variedade de experiências on-line e métodos de implantação para os usuários testarem e aplicarem.
Informações relacionadas:Por quanto tempo um modelo grande consegue entender um vídeo? Smart Spectrum GLM-4V-Plus: 2 horas
CogVLM2:开源多模态模型,支持视频理解与多轮对话-1

Lista de funções

  • compreensão gráficaSuporte para a compreensão e o processamento de imagens de alta resolução.
  • diálogo em várias camadasCapacidade de várias rodadas de diálogo, adequada para cenários de interação complexos.
  • Compreensão de vídeoSuporte à compreensão de conteúdo de vídeo de até 1 minuto de duração por meio da extração de quadros-chave.
  • Suporte a vários idiomasSuporte ao bilinguismo em chinês e inglês para adaptação a diferentes ambientes linguísticos.
  • código aberto (computação)Código-fonte completo e pesos do modelo são fornecidos para facilitar o desenvolvimento secundário.
  • Experiência on-lineOferece uma plataforma de demonstração on-line em que os usuários podem experimentar diretamente a funcionalidade do modelo.
  • Várias opções de implementaçãoSuporte a Huggingface, ModelScope e outras plataformas.

 

Usando a Ajuda

Instalação e implementação

  1. armazém de clones::
   git clone https://github.com/THUDM/CogVLM2.git
cd CogVLM2
  1. Instalação de dependências::
   pip install -r requirements.txt
  1. Download dos pesos do modeloDownload: Faça o download dos pesos de modelo apropriados, conforme necessário, e coloque-os no diretório especificado.

exemplo de uso

compreensão gráfica

  1. Modelos de carregamento::
   from cogvlm2 import CogVLM2
model = CogVLM2.load('path_to_model_weights')
  1. processar imagem::
   image = load_image('path_to_image')
result = model.predict(image)
print(result)

diálogo em várias camadas

  1. Inicialização do diálogo::
   conversation = model.start_conversation()
  1. manter um diálogo::
   response = conversation.ask('你的问题')
print(response)

Compreensão de vídeo

  1. Carregar vídeo::
   video = load_video('path_to_video')
result = model.predict(video)
print(result)

Experiência on-line

Os usuários podem acessar a plataforma de demonstração on-line do CogVLM2 para experimentar a funcionalidade do modelo on-line sem implementação local.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil