Der Befehlszeilenmodus von vllm-cli erleichtert die automatisierte Bereitstellung mit den folgenden grundlegenden Schritten erheblich:
- Grundlegende Einsatzbefehle::
vllm-cli serve <MODEL_NAME>
Ein Beispiel ist der Einsatz des Qwen-Modells:vllm-cli serve Qwen/Qwen2-1.5B-Instruct
- Voreingestellte Konfigurationen verwenden::
vllm-cli serve <MODEL_NAME> --profile high_throughput
- Benutzerdefinierte Parameter::
Unterstützt die Übergabe beliebiger vLLM-unterstützter Parameter, zum Beispiel:vllm-cli serve <MODEL_NAME> --quantization awq --tensor-parallel-size 2
- Überprüfen des Dienststatus::
ausnutzenvllm-cli status
Überprüfung der laufenden Dienste - Einstellung von Dienstleistungen::
vllm-cli stop --port 8000
Um die Integration von Skripten zu erleichtern, unterstützen diese Befehle den stillen Modus (--quiet
) und JSON-Ausgabeformat (--json
).
Diese Antwort stammt aus dem ArtikelvLLM CLI: Kommandozeilen-Tool für die Bereitstellung großer Sprachmodelle mit vLLMDie