vllm-cli ist ein Befehlszeilenschnittstellen-Tool für vLLM, das den Einsatz und die Verwaltung großer Sprachmodelle erheblich erleichtert. Das Tool bietet sowohl eine interaktive Menüschnittstelle als auch einen traditionellen Befehlszeilenmodus. Es ermöglicht Benutzern die Verwaltung lokaler und entfernter Modelle, die Verwendung vordefinierter oder benutzerdefinierter Konfigurationsszenarien und die Überwachung des Betriebsstatus des Modellservers in Echtzeit. Für Entwickler, die schnell verschiedene Modelle lokal testen oder Modelldienste in Automatisierungsskripte integrieren müssen, bietet vllm-cli eine effiziente und einfach zu bedienende Lösung. Darüber hinaus verfügt es über eine integrierte Systeminformationsprüfung und eine Protokollanzeige, die den Benutzern hilft, Probleme schnell zu lokalisieren, wenn sie auftreten.
Funktionsliste
- interaktiver ModusBietet eine funktionsreiche Terminalschnittstelle, über die Benutzer durch Menüs navigieren können, was die Hemmschwelle für die Nutzung senkt.
- KommandozeilenmodusUnterstützung für direkte Befehlszeilenanweisungen zur einfachen Integration in Automatisierungsskripte und Arbeitsabläufe.
- Modell-Management:: Möglichkeit der automatischen Erkennung und Verwaltung von lokal gespeicherten Modelldateien.
- Fernunterstützung für ModelleSie können Modelle direkt aus dem HuggingFace Hub laden und ausführen, ohne sie vorher herunterzuladen.
- KonfigurationsprogrammEine Reihe von Konfigurationen, die für verschiedene Szenarien optimiert sind (z. B. hoher Durchsatz, geringer Speicherbedarf), sind bereits integriert, und benutzerdefinierte Konfigurationen werden ebenfalls unterstützt.
- Server-ÜberwachungSie können den Status des vLLM-Servers in Echtzeit anzeigen, einschließlich GPU-Nutzung und Protokollinformationen.
- System-InformationenÜberprüft und zeigt die Kompatibilität von GPU, Speicher und CUDA an.
- Log ViewerWenn der Server nicht startet, ist es einfach, die vollständige Protokolldatei einzusehen, um Fehler zu beheben.
- LoRA-UnterstützungErmöglicht die Montage von einem oder mehreren LoRA-Adaptern, während das Basismodell geladen ist.
Hilfe verwenden
Der vllm-cli wurde entwickelt, um den Prozess der Bereitstellung großer Sprachmodelle mit vLLM zu vereinfachen. Nachfolgend finden Sie eine ausführliche Anleitung zur Installation und Verwendung, damit Sie schnell loslegen können.
1. der Einbau
Vorbedingung
Vergewissern Sie sich vor der Installation, dass Ihr System die folgenden Bedingungen erfüllt:
- Python 3.11 oder höher.
- Ein CUDA-fähiger NVIDIA-Grafikprozessor.
- Das vLLM-Kernpaket wurde installiert.
Installieren aus PyPI
Der einfachste Weg ist die Installation aus den offiziellen PyPI-Repositories über pip:
pip install vllm-cli
Kompilieren und Installieren aus dem Quellcode
Wenn Sie die neuesten Funktionen nutzen möchten, können Sie sie aus dem GitHub-Quellcode kompilieren und installieren.
Klonen Sie zunächst das Projekt-Repository lokal:
git clone https://github.com/Chen-zexi/vllm-cli.git
cd vllm-cli
Installieren Sie dann die erforderlichen Abhängigkeits-Bibliotheken. Es wird empfohlen, diese Vorgänge in einer sauberen virtuellen Umgebung durchzuführen.
# 安装依赖
pip install -r requirements.txt
pip install hf-model-tool
# 以开发者模式安装
pip install -e .
2. die Verwendungsmodalitäten
vllm-cli bietet zwei Betriebsmodi: eine interaktive Schnittstelle und Befehlszeilenanweisungen.
interaktiver Modus
Dies ist der beste Weg für Anfänger, um loszulegen. Geben Sie zunächst den folgenden Befehl direkt in das Terminal ein:
vllm-cli
Nach dem Start sehen Sie einen Willkommensbildschirm mit menügesteuerten Optionen, die Sie durch alle Schritte der Modellauswahl, Konfiguration und des Dienststarts führen.
- Auswahl des ModellsDie Schnittstelle listet lokal erkannte Modelle und entfernte Modelle auf dem HuggingFace Hub auf. Sie können direkt eines für die Bereitstellung auswählen.
- SchnellstartWenn Sie es schon einmal erfolgreich ausgeführt haben, lädt diese Funktion automatisch die letzte Konfiguration für den Ein-Klick-Start.
- Benutzerdefinierte KonfigurationRufen Sie das Menü Erweiterte Konfiguration auf, in dem Sie Dutzende von vLLM-Parametern einstellen können, darunter die Quantisierungsmethode, die Größe des parallelen Tensors und vieles mehr.
- Server-ÜberwachungSobald der Dienst gestartet ist, können Sie die GPU-Auslastung, den Serverstatus und die Protokollströme in der Überwachungsschnittstelle in Echtzeit sehen.
Kommandozeilenmodus
Der Befehlszeilenmodus ist für automatisierte Skripte und fortgeschrittene Benutzer geeignet. Die wichtigsten Befehle sind serve
.
Grundlegende Verwendung
Starten Sie einen Modelldienst mit der Standardkonfiguration:
vllm-cli serve <MODEL_NAME>
darunter auch <MODEL_NAME>
ist der Name des Modells, z. B. Qwen/Qwen2-1.5B-Instruct
.
Voreingestellte Konfigurationen verwenden
Sie können die --profile
um eine integrierte Optimierungskonfiguration anzugeben. Verwenden Sie zum Beispiel den Parameter high_throughput
Konfiguration, um maximale Leistung zu erzielen:
vllm-cli serve <MODEL_NAME> --profile high_throughput
```内置的配置方案包括:
- `standard`: 智能默认值的最小化配置。
- `moe_optimized`: 为 MoE(混合专家)模型优化。
- `high_throughput`: 追求最大请求吞吐量的性能配置。
- `low_memory`: 适用于内存受限环境的配置,例如启用 FP8 量化。
**传递自定义参数**
你也可以直接在命令行中传递任意 vLLM 支持的参数。例如,同时指定 AWQ 量化和张量并行数为2:
```bash
vllm-cli serve <MODEL_NAME> --quantization awq --tensor-parallel-size 2
Andere gängige Befehle
- Liste der verfügbaren Modelle:
vllm-cli models
- Anzeige von Systeminformationen:
vllm-cli info
- Prüfen auf laufende Dienste:
vllm-cli status
- Anhalten eines Dienstes (Sie müssen die Portnummer angeben).
vllm-cli stop --port 8000
3. die Konfigurationsdateien
Die Konfigurationsdatei für vllm-cli befindet sich im Benutzerverzeichnis des ~/.config/vllm-cli/
Mitte.
config.yaml
: Die Hauptkonfigurationsdatei.user_profiles.json
:: Benutzerdefinierte Konfigurationsschemata.cache.json
Cache: Dient zur Zwischenspeicherung von Modelllisten und Systeminformationen, um die Leistung zu verbessern.
Bei Problemen, wie z. B. Fehlern beim Laden von Modellen, bietet das Tool die Möglichkeit, die Protokolle direkt einzusehen, was für die Fehlersuche sehr nützlich ist.
Anwendungsszenario
- Lokale Entwicklung und Modellbewertung
Forscher und Entwickler können schnell zwischen verschiedenen großen Sprachmodellen für die Algorithmusvalidierung, Funktionstests und Leistungsbewertung in ihrer lokalen Umgebung wechseln, ohne einen komplexen Serverimplementierungscode schreiben zu müssen. - Automatisierte Verteilungsskripte
Mit seinem Befehlszeilenmodus kann vllm-cli in CI/CD-Prozesse oder automatisierte Ops-Skripte integriert werden. Wenn zum Beispiel ein neues Modell trainiert wird, kann automatisch ein Skript ausgelöst werden, um das Modell bereitzustellen und zu bewerten. - Unterricht und Demonstration
In Lehr- oder Produktdemonstrationsszenarien kann eine interaktive Schnittstelle verwendet werden, um einen großen Sprachmodellierungsdienst einfach zu starten und die Auswirkungen des Modells anderen visuell zu demonstrieren, ohne dass sie sich mit den zugrunde liegenden komplexen Konfigurationsdetails befassen müssen. - Leichtes Anwendungs-Backend
Für einige interne Tools oder leichtgewichtige Anwendungen können Sie vllm-cli verwenden, um schnell ein stabiles Backend für die Auswertung großer Sprachmodelle für kleine Aufrufe zu erstellen.
QA
- Welche Arten von Hardware unterstützt vllm-cli?
Derzeit unterstützt vllm-cli hauptsächlich NVIDIA-GPUs mit CUDA. Die Unterstützung für AMD-GPUs ist noch in der Entwicklungsphase. - Was sollte ich tun, wenn ein Modell nicht geladen werden kann?
Verwenden Sie erstens die Protokollanzeigefunktion des Tools, um nach detaillierten Fehlermeldungen zu suchen, die in der Regel auf das Problem hinweisen. Überprüfen Sie zweitens, ob Ihr GPU-Modell und Ihre vLLM-Version mit dem Modell kompatibel sind. Schließlich sollten Sie in der offiziellen vLLM-Dokumentation nachsehen, ob das Modell spezielle Startparameter erfordert, wie z. B. bestimmte Quantisierungsmethoden oder das Vertrauen in Remote-Code. - Wie hat das Tool mein lokales HuggingFace-Modell entdeckt?
vllm-cli hat eine interne Integration namenshf-model-tool
Das HuggingFace-Tool ist ein Hilfsprogramm für HuggingFace. Es durchsucht automatisch das Standard-Cache-Verzeichnis von HuggingFace sowie andere vom Benutzer manuell konfigurierte Modellverzeichnisse, um alle lokal gespeicherten Modelldateien zu finden und zu verwalten. - Kann ich es ohne GPU verwenden?
Nein. vllm-cli stützt sich auf die vLLM-Engine, die ihrerseits für die effiziente Ausführung großer Sprachmodelle auf GPUs ausgelegt ist. Daher ist eine NVIDIA-GPU-Hardware mit CUDA-Unterstützung erforderlich.