Como faço para executar o modelo de destilação DeepSeek-R1 em meu dispositivo local?

2025-09-10

1.9 K

As etapas a seguir precisam ser seguidas para executar o modelo DeepSeek-R1-Distill-Llama-8B:

Instalar o WasmEdgeExecutar o script de instalação curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install_v2.sh | bash Configure o ambiente básico.
Baixar arquivos de modeloObtenha o modelo de formato GGUF quantificado (cerca de 5,73 GB) com o comando curl -LO https://huggingface.co/second-state/DeepSeek-R1-Distill-Llama-8B-GGUF/resolve/main/DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf.
Obtendo o servidor de APIDownload do aplicativo Wasm pré-compilado llama-api-server.wasmgarantindo a compatibilidade entre plataformas.
Início dos serviçosExecute o servidor em conjunto com o arquivo de modelo, especificando o modelo (-prompt-template llama-3-chat) e o tamanho do contexto (-ctx-size 8096).
teste de interaçãoDescrição: Visite localhost:8080 em seu navegador ou envie uma solicitação curl para validar um recurso, como a pergunta "What is the capital of France?" (Qual é a capital da França?). Por exemplo, perguntando "Onde fica a capital da França?

Esse processo aproveita a natureza leve do Wasm e evita dependências complexas, tornando-o adequado para dispositivos com recursos limitados.

Ferramenta de IA da estação de consulta rápida