Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O GPUStack é uma ferramenta de gerenciamento de clusters de GPU de código aberto projetada para executar modelos de linguagem grandes (LLMs). O GPUStack oferece recursos de inferência distribuída, suporta inferência e serviços de nó único, multi-GPU e multi-nó, e é compatível com a API OpenAI, simplificando o gerenciamento de chaves de usuário e API e o monitoramento em tempo real do desempenho e da utilização da GPU. Ele é compatível com a API OpenAI, simplifica o gerenciamento de chaves de usuário e de API e monitora o desempenho e a utilização da GPU em tempo real. Seu design de pacote Python leve garante o mínimo de dependências e sobrecarga operacional, tornando-o ideal para desenvolvedores e pesquisadores.

GPUStack:管理GPU集群运行大语言模型,快速集成LLMs常用推理服务。-1

 

Lista de funções

  • Suporte a vários hardwares: compatível com Apple Metal, NVIDIA CUDA, Ascend CANN, Moore Threads MUSA e muito mais.
  • Inferência distribuída: suporta inferência e serviços de nó único, multi-GPU e multi-nó.
  • Vários backends de inferência: suporte para llama-box (llama.cpp) e vLLM.
  • Pacotes Python leves: dependências e sobrecarga operacional mínimas.
  • API compatível com OpenAI: fornece serviços de API compatíveis com o padrão OpenAI.
  • Gerenciamento de chaves de usuário e API: simplifica o gerenciamento de chaves de usuário e API.
  • Monitoramento do desempenho da GPU: monitore o desempenho e a utilização da GPU em tempo real.
  • Uso de tokens e monitoramento de taxas: gerencie com eficiência o uso de tokens e a limitação de taxas.

 

Usando a Ajuda

Processo de instalação

Linux ou MacOS

  1. Abra o terminal.
  2. Execute o seguinte comando para instalar o GPUStack:
   curl -sfL https://get.gpustack.ai | sh -s -
  1. Após a instalação, o GPUStack será executado como um serviço no sistema systemd ou launchd.

Windows

  1. Execute o PowerShell como administrador (evite usar o PowerShell ISE).
  2. Execute o seguinte comando para instalar o GPUStack:
   Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

Diretrizes para uso

Configuração inicial

  1. Acesso à interface do usuário do GPUStack: abrir no navegador http://myserver
  2. Use o nome de usuário padrão admin e a senha inicial para fazer login. Método para obter a senha inicial:
    • Linux ou MacOS: execute cat /var/lib/gpustack/initial_admin_password
    • Windows: em execução Get-Content -Path "$env:APPDATA\gpustack\initial_admin_password" -Raw

Criação de chaves de API

  1. Depois de fazer login na interface do usuário do GPUStack, clique em "API Keys" (Chaves de API) no menu de navegação.
  2. Clique no botão "New API Key" (Nova chave de API), preencha o nome e salve-o.
  3. Copie a chave de API gerada e salve-a corretamente (visível somente no momento da criação).

Usando a API

  1. Configuração de variáveis de ambiente:
   export GPUSTACK_API_KEY=myapikey
  1. Use curl para acessar APIs compatíveis com OpenAI:
   curl http://myserver/v1-openai/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GPUSTACK_API_KEY" \
-d '{
"model": "llama3.2",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"}
],
"stream": true
}'

Corra e converse

  1. Execute o seguinte comando no terminal para conversar com o modelo llama3.2:
   gpustack chat llama3.2 "tell me a joke."
  1. Clique em "Playground" na interface do usuário do GPUStack para interagir.

Monitoramento e gerenciamento

  1. Monitore o desempenho e a utilização da GPU em tempo real.
  2. Gerencie chaves de usuário e de API, rastreie o uso e as taxas de token.

Modelos e plataformas compatíveis

  • Modelos compatíveis: LLaMA, Mistral 7B, Mixtral MoE, Falcon, Baichuan, Yi, Deepseek, Qwen, Phi, Grok-1 e outros.
  • Modelos multimodais compatíveis: Llama3.2-Vision, Pixtral, Qwen2-VL, LLaVA, InternVL2 e outros.
  • Plataformas compatíveis: macOS, Linux, Windows.
  • Aceleradores suportados: Apple Metal, NVIDIA CUDA, Ascend CANN, Moore Threads MUSA, com planos futuros para suportar AMD ROCm, Intel oneAPI, Qualcomm AI Engine.

Documentação e comunidade

0Marcado
0Recomendado
Duck & Pear AI Article Smart Writer
Seleção → Redação → Publicação
Totalmente automático!
Plug-in de escrita de IA para WordPress
Mais de 500 criadores de conteúdo estão usando
🎯Seleção inteligenteGeração de lotes, adeus à exaustão
🧠aprimoramento da recuperação: rede de contatos + base de conhecimento com profundidade
Totalmente automático: Redação → Gráficos → Publicação
💎Permanentemente gratuitoVersão gratuita = Versão paga, ilimitada
Baixe o plug-in gratuitamente agora mesmo!
Livre para sempre · 100% Código aberto · Armazenamento local de dados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Digite as palavras-chave.Acessibilidade à pesquisa do BingFerramentas de IA, encontre rapidamente as ferramentas de IA neste site.

voltar ao topo