展開オプション
dots.llm1は、様々な利用シーンに対応できるよう、様々な展開方法を用意している。
1.Dockerデプロイ(推奨)
- DockerとNVIDIA Container Toolkitのインストール
- 以下のコマンドを実行して画像を取り出します:
docker run -gpus all -v ~/.cache/huggingface:/root/.cache/huggingface -p 8000:8000 -ipc=host rednotehilab/dots1.vllm-openai-v0.9.0.1 -model rednote-hilab/dots.llm1.base -tensor-parallel-size 8 -trust-remote-code-モデル名 dots1 - curlを使用して、サービスが機能しているかどうかをテストする。
2.ハギング・フェイス・トランスフォーマーの使用
- 依存関係をインストールします:
pip install transformers torch - モデルとスプリッターをロードする:
from transformers import AutoTokenizer, AutoModelForCausalLM
モデル名 = 'rednote-hilab/dots.llm1.base'
model = AutoModelForCausalLM.from_pretrained(model_name)
3.vLLMを用いた高スループット推論
大規模な推論シナリオに適しています:
vllm serve rednote-hilab/dots.llm1.base -port 8000 -tensor-parallel-size 8
この答えは記事から得たものである。dots.llm1: リトル・レッド・ブックがオープンソース化した最初のMoE大規模言語モデルについて