Derzeitige Position:Abb. Anfang " AI-Antworten

Wie kann man einen Modelldienst schnell über den Befehlszeilenmodus von vllm-cli bereitstellen?

2025-08-21

Der Befehlszeilenmodus von vllm-cli erleichtert die automatisierte Bereitstellung mit den folgenden grundlegenden Schritten erheblich:

Grundlegende Einsatzbefehle::
vllm-cli serve <MODEL_NAME>
Ein Beispiel ist der Einsatz des Qwen-Modells:
vllm-cli serve Qwen/Qwen2-1.5B-Instruct
Voreingestellte Konfigurationen verwenden::
vllm-cli serve <MODEL_NAME> --profile high_throughput
Benutzerdefinierte Parameter::
Unterstützt die Übergabe beliebiger vLLM-unterstützter Parameter, zum Beispiel:
vllm-cli serve <MODEL_NAME> --quantization awq --tensor-parallel-size 2
Überprüfen des Dienststatus::
ausnutzenvllm-cli statusÜberprüfung der laufenden Dienste
Einstellung von Dienstleistungen::
vllm-cli stop --port 8000

Um die Integration von Skripten zu erleichtern, unterstützen diese Befehle den stillen Modus (--quiet) und JSON-Ausgabeformat (--json).

Schnellabfragestation AI-Tool