Posição atual:fig. início " Biblioteca de ferramentas de IA

GLM-4.5: grandes modelos multimodais de código aberto que suportam raciocínio inteligente e geração de código

2025-07-28

Biblioteca de ferramentas de IA/modelo básico/modelo de texto

2.0 K 6

O GLM-4.5 é um modelo de linguagem grande multimodal de código aberto desenvolvido pela zai-org, projetado para raciocínio inteligente, geração de código e tarefas corporais inteligentes. Ele consiste em GLM-4.5 (355 bilhões de parâmetros, 32 bilhões de parâmetros ativos), GLM-4.5-Air (106 bilhões de parâmetros, 12 bilhões de parâmetros ativos) e outras variantes, e adota a arquitetura Mixed Expertise (MoE), que suporta 128 mil comprimentos de contexto e 96 mil tokens de saída. Os modelos são pré-treinados em 15 trilhões de tokens, ajustados nos domínios de código, inferência e inteligência, e apresentam desempenho superior em vários benchmarks, aproximando-se ou até mesmo superando modelos de código parcialmente fechado, especialmente em tarefas de programação e de chamada de ferramentas. Lançado sob a licença do MIT, o GLM-4.5 é compatível com o uso acadêmico e comercial e é adequado para desenvolvedores, pesquisadores e empresas para implantação local ou na nuvem.

Lista de funções

Modo de raciocínio misto: suporta o Modo de raciocínio para lidar com raciocínios complexos e invocações de ferramentas, e o Modo de não raciocínio para fornecer respostas rápidas.
Suporte multimodal: lida com entrada de texto e imagem para P&R multimodal e geração de conteúdo.
Programação inteligente: gere código de alta qualidade em Python, JavaScript e outras linguagens, com suporte para conclusão de código e correção de erros.
Funcionalidade de corpo inteligente: suporta chamadas de função, navegação na Web e processamento automatizado de tarefas para fluxos de trabalho complexos.
Cache de contexto: otimize o desempenho de diálogos longos e reduza os cálculos duplicados.
Saída estruturada: suporta JSON e outros formatos para facilitar a integração do sistema.
Processamento de contexto longo: suporte nativo para comprimento de contexto de 128K, adequado para análise de documentos longos.
Saída de streaming: forneça resposta em tempo real para aprimorar a experiência interativa.

Usando a Ajuda

O GLM-4.5 fornece pesos e ferramentas de modelo por meio de um repositório do GitHub (https://github.com/zai-org/GLM-4.5), adequado para usuários com formação técnica para implantação local ou na nuvem. Abaixo está um guia detalhado de instalação e uso para ajudar os usuários a começar rapidamente.

Processo de instalação

Preparação ambiental
Certifique-se de que o Python 3.8 ou superior e o Git estejam instalados. Recomenda-se um ambiente virtual:
```
python -m venv glm_env
source glm_env/bin/activate  # Linux/Mac
glm_env\Scripts\activate     # Windows
```

armazém de clones
Obtenha o código do GLM-4.5 no GitHub:

git clone https://github.com/zai-org/GLM-4.5.git
cd GLM-4.5

Instalação de dependências
Instala a versão especificada da dependência para garantir a compatibilidade:

pip install setuptools>=80.9.0 setuptools_scm>=8.3.1
pip install git+https://github.com/huggingface/transformers.git@91221da2f1f68df9eb97c980a7206b14c4d3a9b0
pip install git+https://github.com/vllm-project/vllm.git@220aee902a291209f2975d4cd02dadcc6749ffe6
pip install torchvision>=0.22.0 gradio>=5.35.0 pre-commit>=4.2.0 PyMuPDF>=1.26.1 av>=14.4.0 accelerate>=1.6.0 spaces>=0.37.1

Observação: o vLLM pode levar muito tempo para ser compilado; use a versão pré-compilada se não precisar dela.

Download do modelo
Os pesos do modelo são hospedados no Hugging Face e no ModelScope. Abaixo está um exemplo de carregamento do GLM-4.5-Air:

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("zai-org/GLM-4.5-Air", trust_remote_code=True)
model = AutoModel.from_pretrained("zai-org/GLM-4.5-Air", trust_remote_code=True).half().cuda()
model.eval()

Requisitos de hardware
- GLM-4.5-Air: 16 GB de memória de GPU necessária (INT4 quantificada em ~12 GB).
- GLM-4.5: recomendado para ambientes com várias GPUs, requer aproximadamente 32 GB de RAM.
- Raciocínio sobre a CPU: o GLM-4.5-Air será executado em uma CPU com 32 GB de RAM, mas é lento.

Uso

O GLM-4.5 é compatível com a linha de comando, a interface da Web e as chamadas de API, oferecendo uma variedade de métodos de interação.

raciocínio de linha de comando

fazer uso de trans_infer_cli.py Scripts para diálogo interativo:

python inference/trans_infer_cli.py --model_name zai-org/GLM-4.5-Air

Insira um texto ou uma imagem e o modelo retornará uma resposta.
Oferece suporte a várias rodadas de diálogo e salva automaticamente o histórico.

Exemplo: Geração de funções Python:

response, history = model.chat(tokenizer, "写一个 Python 函数计算三角形面积", history=[])
print(response)

Saída:

def triangle_area(base, height):
return 0.5 * base * height

interface da web

Inicie a interface da Web via Gradio com suporte a entrada multimodal:

python inference/trans_infer_gradio.py --model_name zai-org/GLM-4.5-Air

Acesso ao endereço local (geralmente http://127.0.0.1:7860).
Digite um texto ou carregue uma imagem ou PDF e clique em enviar para obter uma resposta.
Recursos: Faça upload de PDFs, os modelos podem ser analisados e as perguntas respondidas.

Serviços de API

O GLM-4.5 oferece suporte a uma API compatível com OpenAI usando o vLLM Implantação:

vllm serve zai-org/GLM-4.5-Air --limit-mm-per-prompt '{"image":32}'

Exemplo de solicitação:

import requests
payload = {
"model": "GLM-4.5-Air",
"messages": [{"role": "user", "content": "分析这张图片"}],
"image": "path/to/image.jpg"
}
response = requests.post("http://localhost:8000/v1/chat/completions", json=payload)
print(response.json())

Operação da função em destaque

modelo de inferência mista
- padrão de pensamento Adequado para tarefas complexas, como raciocínio matemático ou invocação de ferramentas:
```
model.chat(tokenizer, "解决方程：2x^2 - 8x + 6 = 0", mode="thinking")
```
O modelo produzirá etapas detalhadas da solução.
- modus vivendi : Bom para testes rápidos:
```
model.chat(tokenizer, "翻译：Good morning", mode="non-thinking")
```
suporte multimodal
- Processa entradas de texto e imagens. Por exemplo, o upload de imagens de tópicos de matemática:
```
python inference/trans_infer_gradio.py --input math_problem.jpg
```
- Observação: No momento, não há suporte para o processamento simultâneo de imagens e vídeos.
Programação inteligente
- Generate Code (Gerar código): Digite a descrição da tarefa para gerar o código completo:
```
response, _ = model.chat(tokenizer, "写一个 Python 脚本实现贪吃蛇游戏", history=[])
```
- Oferece suporte à conclusão de código e à correção de bugs para prototipagem rápida.
cache de contexto (computação)
- Otimize o desempenho de diálogos longos e reduza a contagem dupla:
```
model.chat(tokenizer, "继续上一轮对话", cache_context=True)
```

Saída estruturada

Gera o formato JSON para facilitar a integração do sistema:

response = model.chat(tokenizer, "列出 Python 的基本数据类型", format="json")

advertência

O uso de transformadores 4.49.0 pode apresentar problemas de compatibilidade; recomenda-se a versão 4.48.3.
A API vLLM suporta até 300 imagens em uma única entrada.
Certifique-se de que o driver da GPU seja compatível com CUDA 11.8 ou superior.

cenário do aplicativo

desenvolvimento web
O GLM-4.5 gera código de front-end e back-end para dar suporte à construção rápida de aplicativos modernos da Web. Por exemplo, a criação de páginas da Web interativas requer apenas algumas frases de descrição.
Perguntas e respostas inteligentes (Q&A)
O modelo analisa consultas complexas e combina pesquisa na Web e base de conhecimento para fornecer respostas precisas, adequadas para cenários de atendimento ao cliente e educação.
Escritório inteligente
Gere automaticamente PPTs ou pôsteres lógicos com suporte para expansão de conteúdo a partir de títulos, adequados para automação de escritório.
geração de código
Gera código em Python, JavaScript e outros, suportando várias rodadas de desenvolvimento iterativo para prototipagem rápida e correção de bugs.
tradução complexa
Traduza longos textos acadêmicos ou de políticas com consistência semântica e estilo adequados para publicação e serviços internacionais.

QA

Qual é a diferença entre o GLM-4.5 e o GLM-4.5-Air?
O GLM-4.5 (355 bilhões de parâmetros, 32 bilhões ativos) é adequado para raciocínio de alto desempenho; o GLM-4.5-Air (106 bilhões de parâmetros, 12 bilhões ativos) é mais leve e adequado para ambientes com recursos limitados.
Como otimizar a velocidade de raciocínio?
Use a aceleração da GPU, ative a quantificação INT4 ou selecione GLM-4.5-Air para reduzir os requisitos de recursos.
Ele é compatível com o uso comercial?
Sim, a licença MIT permite o uso comercial gratuito.
Como você lida com contextos longos?
Suporte nativo para contextos de 128K, habilite yarn Os parâmetros podem ser ampliados ainda mais.

Projeto de código aberto de IA

Ferramentas de produtividade de IA " GLM-4.5: grandes modelos multimodais de código aberto que suportam raciocínio inteligente e geração de código Publicado em 2025-07-28. Se você achar que o URL está desatualizado ou inacessível, entre em contato conosco.

0Marcado

0Recomendado

GLM-4.5: grandes modelos multimodais de código aberto que suportam raciocínio inteligente e geração de código

Lista de funções

Usando a Ajuda

Processo de instalação

Uso

raciocínio de linha de comando

interface da web

Serviços de API

Operação da função em destaque

advertência

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

GLM-4.5: grandes modelos multimodais de código aberto que suportam raciocínio inteligente e geração de código

Lista de funções

Usando a Ajuda

Processo de instalação

Uso

raciocínio de linha de comando

interface da web

Serviços de API

Operação da função em destaque

advertência

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida