Optionen für den Einsatz
dots.llm1 bietet eine Vielzahl von Bereitstellungsmethoden für unterschiedliche Nutzungsszenarien.
1. die Docker-Bereitstellung (empfohlen)
- Installation von Docker und NVIDIA Container Toolkit
- Führen Sie den folgenden Befehl aus, um das Bild zu ziehen:
docker run -gpus all -v ~/.cache/huggingface:/root/.cache/huggingface -p 8000:8000 -ipc=host rednotehilab/dots1. vllm-openai-v0.9.0.1 -model rednote-hilab/dots.llm1.base -tensor-parallel-size 8 -trust-remote-code -served-model-name dots1 - Verwenden Sie curl, um zu testen, ob der Dienst funktioniert
2. die Verwendung von Umarmungsgesichtstransformatoren
- Installieren Sie die Abhängigkeit:
pip install transformers torch - Modelle und Splitter laden:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = 'rednote-hilab/dots.llm1.base'
model = AutoModelForCausalLM.from_pretrained(model_name)
3. hoher Durchsatz bei der Argumentation mit vLLM
Geeignet für groß angelegte Argumentationsszenarien:
vllm serve rednote-hilab/dots.llm1.base -port 8000 -tensor-parallel-size 8
Diese Antwort stammt aus dem Artikeldots.llm1: das erste große MoE-Sprachmodell, das von Little Red Book zur Verfügung gestellt wirdDie