Programm zur Verwaltung von Fernmodellen
Für eine effiziente Verwaltung von Fernmodellen können die folgenden Methoden verwendet werden:
- Direktlauf:Starten Sie den Dienst durch direkte Angabe der HuggingFace-Modell-ID (z. B. Qwen/Qwen2-1.5B-Instruct)
- <strong]Cache-Nutzung:Automatisches Wiederverwenden des lokalen Caches von HuggingFace (Standard in ~/.cache/huggingface/)
- Versionskontrolle:Das Hinzufügen einer Zweig- oder Commit-Nummer (z. B. @main) nach der Modell-ID legt eine bestimmte Version fest.
- <strong]Automatische Erkennung:Führen Sie regelmäßig vllm-cli models aus, um die Liste der entfernten Modelle zu aktualisieren
- Trennen Sie die Verbindung:Sie können den Befehl erneut ausführen, um das Herunterladen fortzusetzen, nachdem es unterbrochen worden ist.
Empfehlungen für bewährte Verfahren:
- In Produktionsumgebungen empfiehlt es sich, das Modell vor der Bereitstellung lokal herunterzuladen, um Netzwerkschwankungen zu vermeiden.
- Sie können ein benutzerdefiniertes Cache-Verzeichnis mit der Umgebungsvariablen HF_HOME angeben.
- Für große Modelle (>10GB) wird empfohlen, den Parameter -download-dir hinzuzufügen, um den Download-Pfad anzugeben.
- HF_ENDPOINT kann eingestellt werden, um das Herunterladen von gespiegelten Quellen in Umgebungen mit Netzwerkbeschränkungen zu beschleunigen.
Diese Antwort stammt aus dem ArtikelvLLM CLI: Kommandozeilen-Tool für die Bereitstellung großer Sprachmodelle mit vLLMDie