O GLM-4.5 é um modelo de linguagem grande multimodal de código aberto desenvolvido pela zai-org, projetado para raciocínio inteligente, geração de código e tarefas corporais inteligentes. Ele consiste em GLM-4.5 (355 bilhões de parâmetros, 32 bilhões de parâmetros ativos), GLM-4.5-Air (106 bilhões de parâmetros, 12 bilhões de parâmetros ativos) e outras variantes, e adota a arquitetura Mixed Expertise (MoE), que suporta 128 mil comprimentos de contexto e 96 mil tokens de saída. Os modelos são pré-treinados em 15 trilhões de tokens, ajustados nos domínios de código, inferência e inteligência, e apresentam desempenho superior em vários benchmarks, aproximando-se ou até mesmo superando modelos de código parcialmente fechado, especialmente em tarefas de programação e de chamada de ferramentas. Lançado sob a licença do MIT, o GLM-4.5 é compatível com o uso acadêmico e comercial e é adequado para desenvolvedores, pesquisadores e empresas para implantação local ou na nuvem.
Lista de funções
- Modo de raciocínio misto: suporta o Modo de raciocínio para lidar com raciocínios complexos e invocações de ferramentas, e o Modo de não raciocínio para fornecer respostas rápidas.
- Suporte multimodal: lida com entrada de texto e imagem para P&R multimodal e geração de conteúdo.
- Programação inteligente: gere código de alta qualidade em Python, JavaScript e outras linguagens, com suporte para conclusão de código e correção de erros.
- Funcionalidade de corpo inteligente: suporta chamadas de função, navegação na Web e processamento automatizado de tarefas para fluxos de trabalho complexos.
- Cache de contexto: otimize o desempenho de diálogos longos e reduza os cálculos duplicados.
- Saída estruturada: suporta JSON e outros formatos para facilitar a integração do sistema.
- Processamento de contexto longo: suporte nativo para comprimento de contexto de 128K, adequado para análise de documentos longos.
- Saída de streaming: forneça resposta em tempo real para aprimorar a experiência interativa.
Usando a Ajuda
O GLM-4.5 fornece pesos e ferramentas de modelo por meio de um repositório do GitHub (https://github.com/zai-org/GLM-4.5), adequado para usuários com formação técnica para implantação local ou na nuvem. Abaixo está um guia detalhado de instalação e uso para ajudar os usuários a começar rapidamente.
Processo de instalação
- Preparação ambiental
Certifique-se de que o Python 3.8 ou superior e o Git estejam instalados. Recomenda-se um ambiente virtual:python -m venv glm_env source glm_env/bin/activate # Linux/Mac glm_env\Scripts\activate # Windows
- armazém de clones
Obtenha o código do GLM-4.5 no GitHub:git clone https://github.com/zai-org/GLM-4.5.git cd GLM-4.5
- Instalação de dependências
Instala a versão especificada da dependência para garantir a compatibilidade:pip install setuptools>=80.9.0 setuptools_scm>=8.3.1 pip install git+https://github.com/huggingface/transformers.git@91221da2f1f68df9eb97c980a7206b14c4d3a9b0 pip install git+https://github.com/vllm-project/vllm.git@220aee902a291209f2975d4cd02dadcc6749ffe6 pip install torchvision>=0.22.0 gradio>=5.35.0 pre-commit>=4.2.0 PyMuPDF>=1.26.1 av>=14.4.0 accelerate>=1.6.0 spaces>=0.37.1
Observação: o vLLM pode levar muito tempo para ser compilado; use a versão pré-compilada se não precisar dela.
- Download do modelo
Os pesos do modelo são hospedados no Hugging Face e no ModelScope. Abaixo está um exemplo de carregamento do GLM-4.5-Air:from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("zai-org/GLM-4.5-Air", trust_remote_code=True) model = AutoModel.from_pretrained("zai-org/GLM-4.5-Air", trust_remote_code=True).half().cuda() model.eval()
- Requisitos de hardware
- GLM-4.5-Air: 16 GB de memória de GPU necessária (INT4 quantificada em ~12 GB).
- GLM-4.5: recomendado para ambientes com várias GPUs, requer aproximadamente 32 GB de RAM.
- Raciocínio sobre a CPU: o GLM-4.5-Air será executado em uma CPU com 32 GB de RAM, mas é lento.
Uso
O GLM-4.5 é compatível com a linha de comando, a interface da Web e as chamadas de API, oferecendo uma variedade de métodos de interação.
raciocínio de linha de comando
fazer uso de trans_infer_cli.py
Scripts para diálogo interativo:
python inference/trans_infer_cli.py --model_name zai-org/GLM-4.5-Air
- Insira um texto ou uma imagem e o modelo retornará uma resposta.
- Oferece suporte a várias rodadas de diálogo e salva automaticamente o histórico.
- Exemplo: Geração de funções Python:
response, history = model.chat(tokenizer, "写一个 Python 函数计算三角形面积", history=[]) print(response)
Saída:
def triangle_area(base, height): return 0.5 * base * height
interface da web
Inicie a interface da Web via Gradio com suporte a entrada multimodal:
python inference/trans_infer_gradio.py --model_name zai-org/GLM-4.5-Air
- Acesso ao endereço local (geralmente
http://127.0.0.1:7860
). - Digite um texto ou carregue uma imagem ou PDF e clique em enviar para obter uma resposta.
- Recursos: Faça upload de PDFs, os modelos podem ser analisados e as perguntas respondidas.
Serviços de API
O GLM-4.5 oferece suporte a APIs compatíveis com OpenAI, implantadas usando vLLM:
vllm serve zai-org/GLM-4.5-Air --limit-mm-per-prompt '{"image":32}'
- Exemplo de solicitação:
import requests payload = { "model": "GLM-4.5-Air", "messages": [{"role": "user", "content": "分析这张图片"}], "image": "path/to/image.jpg" } response = requests.post("http://localhost:8000/v1/chat/completions", json=payload) print(response.json())
Operação da função em destaque
- modelo de inferência mista
- padrão de pensamento Adequado para tarefas complexas, como raciocínio matemático ou invocação de ferramentas:
model.chat(tokenizer, "解决方程:2x^2 - 8x + 6 = 0", mode="thinking")
O modelo produzirá etapas detalhadas da solução.
- modus vivendi : Bom para testes rápidos:
model.chat(tokenizer, "翻译:Good morning", mode="non-thinking")
- suporte multimodal
- Processa entradas de texto e imagens. Por exemplo, o upload de imagens de tópicos de matemática:
python inference/trans_infer_gradio.py --input math_problem.jpg
- Observação: No momento, não há suporte para o processamento simultâneo de imagens e vídeos.
- Processa entradas de texto e imagens. Por exemplo, o upload de imagens de tópicos de matemática:
- Programação inteligente
- Generate Code (Gerar código): Digite a descrição da tarefa para gerar o código completo:
response, _ = model.chat(tokenizer, "写一个 Python 脚本实现贪吃蛇游戏", history=[])
- Oferece suporte à conclusão de código e à correção de bugs para prototipagem rápida.
- Generate Code (Gerar código): Digite a descrição da tarefa para gerar o código completo:
- cache de contexto (computação)
- Otimize o desempenho de diálogos longos e reduza a contagem dupla:
model.chat(tokenizer, "继续上一轮对话", cache_context=True)
- Otimize o desempenho de diálogos longos e reduza a contagem dupla:
- Saída estruturada
- Gera o formato JSON para facilitar a integração do sistema:
response = model.chat(tokenizer, "列出 Python 的基本数据类型", format="json")
- Gera o formato JSON para facilitar a integração do sistema:
advertência
- O uso de transformadores 4.49.0 pode apresentar problemas de compatibilidade; recomenda-se a versão 4.48.3.
- A API vLLM suporta até 300 imagens em uma única entrada.
- Certifique-se de que o driver da GPU seja compatível com CUDA 11.8 ou superior.
cenário do aplicativo
- desenvolvimento web
O GLM-4.5 gera código de front-end e back-end para dar suporte à construção rápida de aplicativos modernos da Web. Por exemplo, a criação de páginas da Web interativas requer apenas algumas frases de descrição. - Perguntas e respostas inteligentes (Q&A)
O modelo analisa consultas complexas e combina pesquisa na Web e base de conhecimento para fornecer respostas precisas, adequadas para cenários de atendimento ao cliente e educação. - Escritório inteligente
Gere automaticamente PPTs ou pôsteres lógicos com suporte para expansão de conteúdo a partir de títulos, adequados para automação de escritório. - geração de código
Gera código em Python, JavaScript e outros, suportando várias rodadas de desenvolvimento iterativo para prototipagem rápida e correção de bugs. - tradução complexa
Traduza longos textos acadêmicos ou de políticas com consistência semântica e estilo adequados para publicação e serviços internacionais.
QA
- Qual é a diferença entre o GLM-4.5 e o GLM-4.5-Air?
O GLM-4.5 (355 bilhões de parâmetros, 32 bilhões ativos) é adequado para raciocínio de alto desempenho; o GLM-4.5-Air (106 bilhões de parâmetros, 12 bilhões ativos) é mais leve e adequado para ambientes com recursos limitados. - Como otimizar a velocidade de raciocínio?
Use a aceleração da GPU, ative a quantificação INT4 ou selecione GLM-4.5-Air para reduzir os requisitos de recursos. - Ele é compatível com o uso comercial?
Sim, a licença MIT permite o uso comercial gratuito. - Como você lida com contextos longos?
Suporte nativo para contextos de 128K, habiliteyarn
Os parâmetros podem ser ampliados ainda mais.