DeepSeek-R1-Distill-Llama-8B モデルを実行するには、以下の手順に従う必要があります:
- WasmEdgeのインストールインストールスクリプトの実行
curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install_v2.sh | bashベース環境を設定する。 - モデルファイルのダウンロード定量化されたGGUF形式のモデル(約5.73GB)を次のコマンドで取得します。
curl -LO https://huggingface.co/second-state/DeepSeek-R1-Distill-Llama-8B-GGUF/resolve/main/DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf. - APIサーバーの取得コンパイル済みWasmアプリケーションのダウンロード
llama-api-server.wasmクロスプラットフォームの互換性を確保している。 - サービス開始テンプレート(-prompt-template llama-3-chat)とコンテキストサイズ(-ctx-size 8096)を指定して、モデルファイルと共にサーバを実行します。
- 相互作用試験: ブラウザでlocalhost:8080にアクセスするか、curlリクエストを送信して機能を検証する。例えば、「フランスの首都はどこですか?
このプロセスは、Wasmの軽量性を生かし、複雑な依存関係を回避するため、リソースに制約のあるデバイスに適している。
この答えは記事から得たものである。LlamaEdge:LLMをローカルで実行し、微調整する最も迅速な方法!について































