As etapas a seguir precisam ser seguidas para executar o modelo DeepSeek-R1-Distill-Llama-8B:
- Instalar o WasmEdgeExecutar o script de instalação
curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install_v2.sh | bashConfigure o ambiente básico. - Baixar arquivos de modeloObtenha o modelo de formato GGUF quantificado (cerca de 5,73 GB) com o comando
curl -LO https://huggingface.co/second-state/DeepSeek-R1-Distill-Llama-8B-GGUF/resolve/main/DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf. - Obtendo o servidor de APIDownload do aplicativo Wasm pré-compilado
llama-api-server.wasmgarantindo a compatibilidade entre plataformas. - Início dos serviçosExecute o servidor em conjunto com o arquivo de modelo, especificando o modelo (-prompt-template llama-3-chat) e o tamanho do contexto (-ctx-size 8096).
- teste de interaçãoDescrição: Visite localhost:8080 em seu navegador ou envie uma solicitação curl para validar um recurso, como a pergunta "What is the capital of France?" (Qual é a capital da França?). Por exemplo, perguntando "Onde fica a capital da França?
Esse processo aproveita a natureza leve do Wasm e evita dependências complexas, tornando-o adequado para dispositivos com recursos limitados.
Essa resposta foi extraída do artigoLlamaEdge: a maneira mais rápida de executar e ajustar o LLM localmente!O































