Há três maneiras principais de implantar o Qwen3-Coder localmente:
- Programa Ollama: É necessária a versão 0.6.6 e superior do Ollama, execute o comando
ollama serve
adiadoollama run qwen3:8b
Carregamento de modelos. Os modelos podem ser carregados por meio da função/set parameter num_ctx 40960
Ajustando o comprimento do contexto, o endereço da API éhttp://localhost:11434/v1/
adequado para prototipagem rápida. - Programa llama.cppO modelo de formato GGUF precisa ser baixado e o comando de inicialização contém vários parâmetros de otimização, como
--temp 0.6 --top-k 20 -c 40960
etc., o que maximiza o uso dos recursos locais da GPU (NVIDIA CUDA ou AMD ROCm) e a porta de serviço 8080 por padrão. - Implantação nativa de Transformers: carregado diretamente através do repositório HuggingFace usando o
AutoModelForCausalLM
suporta carregamento de precisão total e quantificado (4 bits/8 bits). É necessário ter pelo menos 16 GB de memória de vídeo para executar o modelo 7B sem problemas.
Configuração recomendada: placa de vídeo NVIDIA RTX 3090 ou superior, sistema Ubuntu 22.04, ambiente Python 3.10. Para a primeira implantação, recomenda-se fazer o download do modelo pré-quantificado do ModelScope para reduzir o estresse do hardware.
Essa resposta foi extraída do artigoQwen3-Coder: geração de código-fonte aberto e assistente de programação inteligenteO