Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O GLM-4.5 é um modelo de linguagem grande multimodal de código aberto desenvolvido pela zai-org, projetado para raciocínio inteligente, geração de código e tarefas corporais inteligentes. Ele consiste em GLM-4.5 (355 bilhões de parâmetros, 32 bilhões de parâmetros ativos), GLM-4.5-Air (106 bilhões de parâmetros, 12 bilhões de parâmetros ativos) e outras variantes, e adota a arquitetura Mixed Expertise (MoE), que suporta 128 mil comprimentos de contexto e 96 mil tokens de saída. Os modelos são pré-treinados em 15 trilhões de tokens, ajustados nos domínios de código, inferência e inteligência, e apresentam desempenho superior em vários benchmarks, aproximando-se ou até mesmo superando modelos de código parcialmente fechado, especialmente em tarefas de programação e de chamada de ferramentas. Lançado sob a licença do MIT, o GLM-4.5 é compatível com o uso acadêmico e comercial e é adequado para desenvolvedores, pesquisadores e empresas para implantação local ou na nuvem.

 

Lista de funções

  • Modo de raciocínio misto: suporta o Modo de raciocínio para lidar com raciocínios complexos e invocações de ferramentas, e o Modo de não raciocínio para fornecer respostas rápidas.
  • Suporte multimodal: lida com entrada de texto e imagem para P&R multimodal e geração de conteúdo.
  • Programação inteligente: gere código de alta qualidade em Python, JavaScript e outras linguagens, com suporte para conclusão de código e correção de erros.
  • Funcionalidade de corpo inteligente: suporta chamadas de função, navegação na Web e processamento automatizado de tarefas para fluxos de trabalho complexos.
  • Cache de contexto: otimize o desempenho de diálogos longos e reduza os cálculos duplicados.
  • Saída estruturada: suporta JSON e outros formatos para facilitar a integração do sistema.
  • Processamento de contexto longo: suporte nativo para comprimento de contexto de 128K, adequado para análise de documentos longos.
  • Saída de streaming: forneça resposta em tempo real para aprimorar a experiência interativa.

Usando a Ajuda

O GLM-4.5 fornece pesos e ferramentas de modelo por meio de um repositório do GitHub (https://github.com/zai-org/GLM-4.5), adequado para usuários com formação técnica para implantação local ou na nuvem. Abaixo está um guia detalhado de instalação e uso para ajudar os usuários a começar rapidamente.

Processo de instalação

  1. Preparação ambiental
    Certifique-se de que o Python 3.8 ou superior e o Git estejam instalados. Recomenda-se um ambiente virtual:

    python -m venv glm_env
    source glm_env/bin/activate  # Linux/Mac
    glm_env\Scripts\activate     # Windows
    
  2. armazém de clones
    Obtenha o código do GLM-4.5 no GitHub:

    git clone https://github.com/zai-org/GLM-4.5.git
    cd GLM-4.5
    
  3. Instalação de dependências
    Instala a versão especificada da dependência para garantir a compatibilidade:

    pip install setuptools>=80.9.0 setuptools_scm>=8.3.1
    pip install git+https://github.com/huggingface/transformers.git@91221da2f1f68df9eb97c980a7206b14c4d3a9b0
    pip install git+https://github.com/vllm-project/vllm.git@220aee902a291209f2975d4cd02dadcc6749ffe6
    pip install torchvision>=0.22.0 gradio>=5.35.0 pre-commit>=4.2.0 PyMuPDF>=1.26.1 av>=14.4.0 accelerate>=1.6.0 spaces>=0.37.1
    

    Observação: o vLLM pode levar muito tempo para ser compilado; use a versão pré-compilada se não precisar dela.

  4. Download do modelo
    Os pesos do modelo são hospedados no Hugging Face e no ModelScope. Abaixo está um exemplo de carregamento do GLM-4.5-Air:

    from transformers import AutoTokenizer, AutoModel
    tokenizer = AutoTokenizer.from_pretrained("zai-org/GLM-4.5-Air", trust_remote_code=True)
    model = AutoModel.from_pretrained("zai-org/GLM-4.5-Air", trust_remote_code=True).half().cuda()
    model.eval()
    
  5. Requisitos de hardware
    • GLM-4.5-Air: 16 GB de memória de GPU necessária (INT4 quantificada em ~12 GB).
    • GLM-4.5: recomendado para ambientes com várias GPUs, requer aproximadamente 32 GB de RAM.
    • Raciocínio sobre a CPU: o GLM-4.5-Air será executado em uma CPU com 32 GB de RAM, mas é lento.

Uso

O GLM-4.5 é compatível com a linha de comando, a interface da Web e as chamadas de API, oferecendo uma variedade de métodos de interação.

raciocínio de linha de comando

fazer uso de trans_infer_cli.py Scripts para diálogo interativo:

python inference/trans_infer_cli.py --model_name zai-org/GLM-4.5-Air
  • Insira um texto ou uma imagem e o modelo retornará uma resposta.
  • Oferece suporte a várias rodadas de diálogo e salva automaticamente o histórico.
  • Exemplo: Geração de funções Python:
    response, history = model.chat(tokenizer, "写一个 Python 函数计算三角形面积", history=[])
    print(response)
    

    Saída:

    def triangle_area(base, height):
    return 0.5 * base * height
    

interface da web

Inicie a interface da Web via Gradio com suporte a entrada multimodal:

python inference/trans_infer_gradio.py --model_name zai-org/GLM-4.5-Air
  • Acesso ao endereço local (geralmente http://127.0.0.1:7860).
  • Digite um texto ou carregue uma imagem ou PDF e clique em enviar para obter uma resposta.
  • Recursos: Faça upload de PDFs, os modelos podem ser analisados e as perguntas respondidas.

Serviços de API

O GLM-4.5 oferece suporte a APIs compatíveis com OpenAI, implantadas usando vLLM:

vllm serve zai-org/GLM-4.5-Air --limit-mm-per-prompt '{"image":32}'
  • Exemplo de solicitação:
    import requests
    payload = {
    "model": "GLM-4.5-Air",
    "messages": [{"role": "user", "content": "分析这张图片"}],
    "image": "path/to/image.jpg"
    }
    response = requests.post("http://localhost:8000/v1/chat/completions", json=payload)
    print(response.json())
    

Operação da função em destaque

  1. modelo de inferência mista
    • padrão de pensamento Adequado para tarefas complexas, como raciocínio matemático ou invocação de ferramentas:
    model.chat(tokenizer, "解决方程:2x^2 - 8x + 6 = 0", mode="thinking")
    

    O modelo produzirá etapas detalhadas da solução.

    • modus vivendi : Bom para testes rápidos:
    model.chat(tokenizer, "翻译:Good morning", mode="non-thinking")
    
  2. suporte multimodal
    • Processa entradas de texto e imagens. Por exemplo, o upload de imagens de tópicos de matemática:
      python inference/trans_infer_gradio.py --input math_problem.jpg
      
    • Observação: No momento, não há suporte para o processamento simultâneo de imagens e vídeos.
  3. Programação inteligente
    • Generate Code (Gerar código): Digite a descrição da tarefa para gerar o código completo:
      response, _ = model.chat(tokenizer, "写一个 Python 脚本实现贪吃蛇游戏", history=[])
      
    • Oferece suporte à conclusão de código e à correção de bugs para prototipagem rápida.
  4. cache de contexto (computação)
    • Otimize o desempenho de diálogos longos e reduza a contagem dupla:
      model.chat(tokenizer, "继续上一轮对话", cache_context=True)
      
  5. Saída estruturada
    • Gera o formato JSON para facilitar a integração do sistema:
      response = model.chat(tokenizer, "列出 Python 的基本数据类型", format="json")
      

advertência

  • O uso de transformadores 4.49.0 pode apresentar problemas de compatibilidade; recomenda-se a versão 4.48.3.
  • A API vLLM suporta até 300 imagens em uma única entrada.
  • Certifique-se de que o driver da GPU seja compatível com CUDA 11.8 ou superior.

cenário do aplicativo

  1. desenvolvimento web
    O GLM-4.5 gera código de front-end e back-end para dar suporte à construção rápida de aplicativos modernos da Web. Por exemplo, a criação de páginas da Web interativas requer apenas algumas frases de descrição.
  2. Perguntas e respostas inteligentes (Q&A)
    O modelo analisa consultas complexas e combina pesquisa na Web e base de conhecimento para fornecer respostas precisas, adequadas para cenários de atendimento ao cliente e educação.
  3. Escritório inteligente
    Gere automaticamente PPTs ou pôsteres lógicos com suporte para expansão de conteúdo a partir de títulos, adequados para automação de escritório.
  4. geração de código
    Gera código em Python, JavaScript e outros, suportando várias rodadas de desenvolvimento iterativo para prototipagem rápida e correção de bugs.
  5. tradução complexa
    Traduza longos textos acadêmicos ou de políticas com consistência semântica e estilo adequados para publicação e serviços internacionais.

QA

  1. Qual é a diferença entre o GLM-4.5 e o GLM-4.5-Air?
    O GLM-4.5 (355 bilhões de parâmetros, 32 bilhões ativos) é adequado para raciocínio de alto desempenho; o GLM-4.5-Air (106 bilhões de parâmetros, 12 bilhões ativos) é mais leve e adequado para ambientes com recursos limitados.
  2. Como otimizar a velocidade de raciocínio?
    Use a aceleração da GPU, ative a quantificação INT4 ou selecione GLM-4.5-Air para reduzir os requisitos de recursos.
  3. Ele é compatível com o uso comercial?
    Sim, a licença MIT permite o uso comercial gratuito.
  4. Como você lida com contextos longos?
    Suporte nativo para contextos de 128K, habilite yarn Os parâmetros podem ser ampliados ainda mais.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil