Die folgenden Schritte müssen befolgt werden, um das Modell DeepSeek-R1-Distill-Llama-8B auszuführen:
- WasmEdge installierenAusführen des Installationsskripts
curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install_v2.sh | bashKonfigurieren Sie die Basisumgebung. - Modelldateien herunterladenAbrufen des quantisierten Modells im GGUF-Format (etwa 5,73 GB) mit dem Befehl
curl -LO https://huggingface.co/second-state/DeepSeek-R1-Distill-Llama-8B-GGUF/resolve/main/DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf. - Abrufen des API-ServersDownload der vorkompilierten Wasm-Anwendung
llama-api-server.wasmum die plattformübergreifende Kompatibilität zu gewährleisten. - Neue DiensteStarten Sie den Server in Verbindung mit der Modelldatei und geben Sie die Vorlage (-prompt-template llama-3-chat) und die Kontextgröße (-ctx-size 8096) an.
- InteraktionstestBesuchen Sie localhost:8080 in Ihrem Browser oder senden Sie eine curl-Anfrage, um eine Funktion zu überprüfen, z. B. die Frage "Was ist die Hauptstadt von Frankreich?". zum Beispiel durch die Frage "Wo ist die Hauptstadt von Frankreich?
Dieses Verfahren nutzt die Vorteile des geringen Gewichts von Wasm und vermeidet komplexe Abhängigkeiten, so dass es auch für Geräte mit eingeschränkten Ressourcen geeignet ist.
Diese Antwort stammt aus dem ArtikelLlamaEdge: der schnellste Weg, LLM lokal auszuführen und zu optimieren!Die































