Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O GLM-4.5 é um modelo de linguagem grande multimodal de código aberto desenvolvido pela zai-org, projetado para raciocínio inteligente, geração de código e tarefas corporais inteligentes. Ele consiste em GLM-4.5 (355 bilhões de parâmetros, 32 bilhões de parâmetros ativos), GLM-4.5-Air (106 bilhões de parâmetros, 12 bilhões de parâmetros ativos) e outras variantes, e adota a arquitetura Mixed Expertise (MoE), que suporta 128 mil comprimentos de contexto e 96 mil tokens de saída. Os modelos são pré-treinados em 15 trilhões de tokens, ajustados nos domínios de código, inferência e inteligência, e apresentam desempenho superior em vários benchmarks, aproximando-se ou até mesmo superando modelos de código parcialmente fechado, especialmente em tarefas de programação e de chamada de ferramentas. Lançado sob a licença do MIT, o GLM-4.5 é compatível com o uso acadêmico e comercial e é adequado para desenvolvedores, pesquisadores e empresas para implantação local ou na nuvem.

 

Lista de funções

  • Modo de raciocínio misto: suporta o Modo de raciocínio para lidar com raciocínios complexos e invocações de ferramentas, e o Modo de não raciocínio para fornecer respostas rápidas.
  • Suporte multimodal: lida com entrada de texto e imagem para P&R multimodal e geração de conteúdo.
  • Programação inteligente: gere código de alta qualidade em Python, JavaScript e outras linguagens, com suporte para conclusão de código e correção de erros.
  • Funcionalidade de corpo inteligente: suporta chamadas de função, navegação na Web e processamento automatizado de tarefas para fluxos de trabalho complexos.
  • Cache de contexto: otimize o desempenho de diálogos longos e reduza os cálculos duplicados.
  • Saída estruturada: suporta JSON e outros formatos para facilitar a integração do sistema.
  • Processamento de contexto longo: suporte nativo para comprimento de contexto de 128K, adequado para análise de documentos longos.
  • Saída de streaming: forneça resposta em tempo real para aprimorar a experiência interativa.

Usando a Ajuda

O GLM-4.5 fornece pesos e ferramentas de modelo por meio de um repositório do GitHub (https://github.com/zai-org/GLM-4.5), adequado para usuários com formação técnica para implantação local ou na nuvem. Abaixo está um guia detalhado de instalação e uso para ajudar os usuários a começar rapidamente.

Processo de instalação

  1. Preparação ambiental
    Certifique-se de que o Python 3.8 ou superior e o Git estejam instalados. Recomenda-se um ambiente virtual:

    python -m venv glm_env
    source glm_env/bin/activate  # Linux/Mac
    glm_env\Scripts\activate     # Windows
    
  2. armazém de clones
    Obtenha o código do GLM-4.5 no GitHub:

    git clone https://github.com/zai-org/GLM-4.5.git
    cd GLM-4.5
    
  3. Instalação de dependências
    Instala a versão especificada da dependência para garantir a compatibilidade:

    pip install setuptools>=80.9.0 setuptools_scm>=8.3.1
    pip install git+https://github.com/huggingface/transformers.git@91221da2f1f68df9eb97c980a7206b14c4d3a9b0
    pip install git+https://github.com/vllm-project/vllm.git@220aee902a291209f2975d4cd02dadcc6749ffe6
    pip install torchvision>=0.22.0 gradio>=5.35.0 pre-commit>=4.2.0 PyMuPDF>=1.26.1 av>=14.4.0 accelerate>=1.6.0 spaces>=0.37.1
    

    Observação: o vLLM pode levar muito tempo para ser compilado; use a versão pré-compilada se não precisar dela.

  4. Download do modelo
    Os pesos do modelo são hospedados no Hugging Face e no ModelScope. Abaixo está um exemplo de carregamento do GLM-4.5-Air:

    from transformers import AutoTokenizer, AutoModel
    tokenizer = AutoTokenizer.from_pretrained("zai-org/GLM-4.5-Air", trust_remote_code=True)
    model = AutoModel.from_pretrained("zai-org/GLM-4.5-Air", trust_remote_code=True).half().cuda()
    model.eval()
    
  5. Requisitos de hardware
    • GLM-4.5-Air: 16 GB de memória de GPU necessária (INT4 quantificada em ~12 GB).
    • GLM-4.5: recomendado para ambientes com várias GPUs, requer aproximadamente 32 GB de RAM.
    • Raciocínio sobre a CPU: o GLM-4.5-Air será executado em uma CPU com 32 GB de RAM, mas é lento.

Uso

O GLM-4.5 é compatível com a linha de comando, a interface da Web e as chamadas de API, oferecendo uma variedade de métodos de interação.

raciocínio de linha de comando

fazer uso de trans_infer_cli.py Scripts para diálogo interativo:

python inference/trans_infer_cli.py --model_name zai-org/GLM-4.5-Air
  • Insira um texto ou uma imagem e o modelo retornará uma resposta.
  • Oferece suporte a várias rodadas de diálogo e salva automaticamente o histórico.
  • Exemplo: Geração de funções Python:
    response, history = model.chat(tokenizer, "写一个 Python 函数计算三角形面积", history=[])
    print(response)
    

    Saída:

    def triangle_area(base, height):
    return 0.5 * base * height
    

interface da web

Inicie a interface da Web via Gradio com suporte a entrada multimodal:

python inference/trans_infer_gradio.py --model_name zai-org/GLM-4.5-Air
  • Acesso ao endereço local (geralmente http://127.0.0.1:7860)。
  • Digite um texto ou carregue uma imagem ou PDF e clique em enviar para obter uma resposta.
  • Recursos: Faça upload de PDFs, os modelos podem ser analisados e as perguntas respondidas.

Serviços de API

O GLM-4.5 oferece suporte a uma API compatível com OpenAI usando o vLLM Implantação:

vllm serve zai-org/GLM-4.5-Air --limit-mm-per-prompt '{"image":32}'
  • Exemplo de solicitação:
    import requests
    payload = {
    "model": "GLM-4.5-Air",
    "messages": [{"role": "user", "content": "分析这张图片"}],
    "image": "path/to/image.jpg"
    }
    response = requests.post("http://localhost:8000/v1/chat/completions", json=payload)
    print(response.json())
    

Operação da função em destaque

  1. modelo de inferência mista
    • padrão de pensamento Adequado para tarefas complexas, como raciocínio matemático ou invocação de ferramentas:
    model.chat(tokenizer, "解决方程:2x^2 - 8x + 6 = 0", mode="thinking")
    

    O modelo produzirá etapas detalhadas da solução.

    • modus vivendi : Bom para testes rápidos:
    model.chat(tokenizer, "翻译:Good morning", mode="non-thinking")
    
  2. suporte multimodal
    • Processa entradas de texto e imagens. Por exemplo, o upload de imagens de tópicos de matemática:
      python inference/trans_infer_gradio.py --input math_problem.jpg
      
    • Observação: No momento, não há suporte para o processamento simultâneo de imagens e vídeos.
  3. Programação inteligente
    • Generate Code (Gerar código): Digite a descrição da tarefa para gerar o código completo:
      response, _ = model.chat(tokenizer, "写一个 Python 脚本实现贪吃蛇游戏", history=[])
      
    • Oferece suporte à conclusão de código e à correção de bugs para prototipagem rápida.
  4. cache de contexto (computação)
    • Otimize o desempenho de diálogos longos e reduza a contagem dupla:
      model.chat(tokenizer, "继续上一轮对话", cache_context=True)
      
  5. Saída estruturada
    • Gera o formato JSON para facilitar a integração do sistema:
      response = model.chat(tokenizer, "列出 Python 的基本数据类型", format="json")
      

advertência

  • O uso de transformadores 4.49.0 pode apresentar problemas de compatibilidade; recomenda-se a versão 4.48.3.
  • A API vLLM suporta até 300 imagens em uma única entrada.
  • Certifique-se de que o driver da GPU seja compatível com CUDA 11.8 ou superior.

cenário do aplicativo

  1. desenvolvimento web
    O GLM-4.5 gera código de front-end e back-end para dar suporte à construção rápida de aplicativos modernos da Web. Por exemplo, a criação de páginas da Web interativas requer apenas algumas frases de descrição.
  2. Perguntas e respostas inteligentes (Q&A)
    O modelo analisa consultas complexas e combina pesquisa na Web e base de conhecimento para fornecer respostas precisas, adequadas para cenários de atendimento ao cliente e educação.
  3. Escritório inteligente
    Gere automaticamente PPTs ou pôsteres lógicos com suporte para expansão de conteúdo a partir de títulos, adequados para automação de escritório.
  4. geração de código
    Gera código em Python, JavaScript e outros, suportando várias rodadas de desenvolvimento iterativo para prototipagem rápida e correção de bugs.
  5. tradução complexa
    Traduza longos textos acadêmicos ou de políticas com consistência semântica e estilo adequados para publicação e serviços internacionais.

QA

  1. Qual é a diferença entre o GLM-4.5 e o GLM-4.5-Air?
    O GLM-4.5 (355 bilhões de parâmetros, 32 bilhões ativos) é adequado para raciocínio de alto desempenho; o GLM-4.5-Air (106 bilhões de parâmetros, 12 bilhões ativos) é mais leve e adequado para ambientes com recursos limitados.
  2. Como otimizar a velocidade de raciocínio?
    Use a aceleração da GPU, ative a quantificação INT4 ou selecione GLM-4.5-Air para reduzir os requisitos de recursos.
  3. Ele é compatível com o uso comercial?
    Sim, a licença MIT permite o uso comercial gratuito.
  4. Como você lida com contextos longos?
    Suporte nativo para contextos de 128K, habilite yarn Os parâmetros podem ser ampliados ainda mais.
0Marcado
0Recomendado
Duck & Pear AI Article Smart Writer
Seleção → Redação → Publicação
Totalmente automático!
Plug-in de escrita de IA para WordPress
Mais de 500 criadores de conteúdo estão usando
🎯Seleção inteligenteGeração de lotes, adeus à exaustão
🧠aprimoramento da recuperação: rede de contatos + base de conhecimento com profundidade
Totalmente automático: Redação → Gráficos → Publicação
💎Permanentemente gratuitoVersão gratuita = Versão paga, ilimitada
Baixe o plug-in gratuitamente agora mesmo!
Livre para sempre · 100% Código aberto · Armazenamento local de dados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Digite as palavras-chave.Acessibilidade à pesquisa do BingFerramentas de IA, encontre rapidamente as ferramentas de IA neste site.

Novos lançamentos

voltar ao topo