Opções de implementação
O dots.llm1 oferece uma variedade de métodos de implementação para diferentes cenários de uso.
1. implantação do Docker (recomendado)
- Instalação do Docker e do kit de ferramentas para contêineres da NVIDIA
- Execute o seguinte comando para extrair a imagem:
docker run -gpus all -v ~/.cache/huggingface:/root/.cache/huggingface -p 8000:8000 -ipc=host rednotehilab/dots1. vllm-openai-v0.9.0.1 -model rednote-hilab/dots.llm1.base -tensor-parallel-size 8 -trust-remote-code -served-model-name dots1 - Use o curl para testar se o serviço está funcionando
2. uso de transformadores de rosto de abraçar
- Instale a dependência:
pip install transformers torch - Carregamento de modelos e divisores:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = 'rednote-hilab/dots.llm1.base'
model = AutoModelForCausalLM.from_pretrained(nome_do_modelo)
3. raciocínio de alto rendimento usando vLLM
Adequado para cenários de raciocínio em grande escala:
vllm serve rednote-hilab/dots.llm1.base -port 8000 -tensor-parallel-size 8
Essa resposta foi extraída do artigodots.llm1: o primeiro modelo de idioma grande do MoE com código aberto da Little Red BookO