Ein zentraler Ansatz zur Bewältigung des Einsatzes von Geräten mit geringem Grafikspeicher
Optimiert für 8-GB-Videospeichergeräte bietet Jan-nano die folgenden spezifischen Lösungen:
- Verwendung der quantifizierten Version von GGUFQ4_K_M: Wählen Sie die Quantisierungsstufe Q4_K_M, die auf 8-GB-Geräten die beste Balance zwischen Leistung und Ressourcenverbrauch bietet. Befehle über Hugging Face herunterladen:
huggingface-cli download bartowski/Menlo_Jan-nano-GGUF --include "Menlo_Jan-nano-Q4_K_M.gguf" - Anpassung der InferenzparameterBegrenzung der maximalen Anzahl von Token beim Start (z.B.
--max-model-len 4096), und schalten Sie nicht benötigte Funktionen aus (z. B. die Reduzierung dertool-call-parser(Anzahl der Konkurrenzen) - Annahme der Chunking-StrategieLanger Text: Senden Sie bei langen Textaufgaben Textfragmente in Stapeln über die API und fügen Sie die Ergebnisse schließlich zusammen.
Zu den Alternativen gehören die Wahl einer leichteren Version von Q3_K_XL (unter der Voraussetzung, dass ein Leistungsabfall von etwa 5% toleriert wird) oder der Betrieb im CPU+RAM-Modus (unter der Voraussetzung, dass diepip install llama-cpp-python)
Diese Antwort stammt aus dem ArtikelJan-nano: ein leichtes und effizientes Modell für die TexterstellungDie































