Die Verbesserung der lokalen LLM-Leistung erfordert eine gezielte Optimierung der Hardware-Anpassung:
- GPU-Beschleunigungsprogramm: Verwendung
docker compose --profile local-gpu
Um den Container zu starten, müssen Sie sicherstellen, dass die NVIDIA-Treiber und CUDA installiert sind. - Empfehlungen zur CPU-OptimierungWählen Sie die Version des quantifizierten Modells (z. B. das GGUF-Format) durch
ollama_docker.sh
Skript lädt mit dem Zusatz der--cpu
Parameter - Optimierung der SpeicherungEs wird empfohlen, die Modelldateien auf SSD-Laufwerken zu speichern und beim Ziehen von
./scripts/ollama_docker.sh pull <model>:latest-q4
Holen Sie sich die Light-Version
beachten Sie, dass indocker-compose.ollama.yml
MittelbühnenverstellungOLLAMA_NUM_PARALLEL
steuert die Anzahl der gleichzeitigen Anfragen.
Diese Antwort stammt aus dem ArtikelSim: Open-Source-Tools für den schnellen Aufbau und Einsatz von KI-Agenten-WorkflowsDie