Vollständiger Leitfaden für die lokale Bereitstellung
Jan-nano bietet einen standardisierten Prozess für die lokale Bereitstellung, der in 4 Hauptschritte unterteilt ist:
- Vorbereitung der UmweltPython 3.8+ und Git-Umgebung erforderlich, isolierte virtuelle Umgebung empfohlen (venv)
- Abhängige InstallationInstallieren Sie die Transformatoren und vLLM-Bibliotheken über pip für eine optimale Inferenzleistung!
- Modell Downloadhuggingface-cli: Verwenden Sie das Werkzeug huggingface-cli, um offizielle Modelle oder quantisierte Versionen von Drittanbietern zu erhalten (z. B. das GGUF-Format von Bartowski).
- Service-AktivierungDer vLLM-Motor wird mit Vorsicht gestartet:
- Die Grundversion verwendet Standardparameter
--enable-auto-tool-choice - 128k-Version erfordert Konfiguration
--rope-scalingParameter unterstützen erweiterte Kontexte
- Die Grundversion verwendet Standardparameter
Typisches Einsatzbeispiel:vllm serve Menlo/Jan-nano --port 1234 --enable-auto-tool-choice
Nach der Bereitstellung können Verifizierungstests über die REST-API oder die Python-Anforderungsbibliothek durchgeführt werden. Besonderer Hinweis: Sie müssen die geeignete Quantisierungsstufe entsprechend der Größe des Videospeichers wählen, wobei die Version Q4_K_M für Geräte mit 8 GB empfohlen wird.
Diese Antwort stammt aus dem ArtikelJan-nano: ein leichtes und effizientes Modell für die TexterstellungDie































