Es gibt im Wesentlichen drei Möglichkeiten, Qwen3-Coder lokal einzusetzen:
- Ollama-Programm: Ollama Version 0.6.6 und höher wird benötigt, führen Sie das
ollama serveverschobenollama run qwen3:8bLaden von Modellen. Modelle können über die Funktion/set parameter num_ctx 40960Wenn man die Kontextlänge anpasst, lautet die API-Adressehttp://localhost:11434/v1/für das Rapid Prototyping geeignet. - Programm llama.cppDas Modell im GGUF-Format muss heruntergeladen werden, und der Startbefehl enthält eine Reihe von Optimierungsparametern wie
--temp 0.6 --top-k 20 -c 40960usw., wodurch die Nutzung der lokalen GPU-Ressourcen (NVIDIA CUDA oder AMD ROCm) maximiert wird, und standardmäßig den Port 8080 bedienen. - Native Bereitstellung von Transformers: direkt über das HuggingFace-Repository unter Verwendung der
AutoModelForCausalLMSchnittstelle, unterstützt volle Präzision und quantisiertes Laden (4bit/8bit). Für den reibungslosen Betrieb des Modells 7B sind mindestens 16 GB Videospeicher erforderlich.
Empfohlene Konfiguration: NVIDIA RTX 3090 und höhere Grafikkarte, Ubuntu 22.04 System, Python 3.10 Umgebung. Für den erstmaligen Einsatz wird empfohlen, das vorquantisierte Modell von ModelScope herunterzuladen, um die Hardwarebelastung zu reduzieren.
Diese Antwort stammt aus dem ArtikelQwen3-Coder: Open-Source-Code-Generierung und intelligenter ProgrammierassistentDie

































