部署选项
dots.llm1提供了多种部署方式,适合不同使用场景。
1. Docker部署(推荐)
- 安装Docker和NVIDIA Container Toolkit
- 运行以下命令拉取镜像:
docker run –gpus all -v ~/.cache/huggingface:/root/.cache/huggingface -p 8000:8000 –ipc=host rednotehilab/dots1:vllm-openai-v0.9.0.1 –model rednote-hilab/dots.llm1.base –tensor-parallel-size 8 –trust-remote-code –served-model-name dots1 - 使用curl测试服务是否正常
2. 使用Hugging Face Transformers
- 安装依赖:
pip install transformers torch - 加载模型和分词器:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = ‘rednote-hilab/dots.llm1.base’
model = AutoModelForCausalLM.from_pretrained(model_name)
3. 使用vLLM进行高吞吐量推理
适合大规模推理场景:
vllm serve rednote-hilab/dots.llm1.base –port 8000 –tensor-parallel-size 8
本答案来源于文章《dots.llm1:小红书开源的首个MoE大语言模型》