Dreistufiges Optimierungsprogramm
Bei einem durchschnittlichen PC mit 4-8 GB RAM kann die Leistung erheblich verbessert werden, indem..:
- Auswahl des ModellsBevorzugen Sie kleine quantisierte Q4_K_M-Modelle (weniger als 1 GB), wie das in dem Artikel empfohlene gemma-3-1b-it, das das Volumen um 75% im Vergleich zum ursprünglichen FP16-Modell reduziert, aber die Wirkung von 90% oder mehr beibehält.
- Systemoptimierung::
- Schließen Sie andere speicherhungrige Programme (z. B. Browser) und stellen Sie sicher, dass Sie mindestens 2 GB freien Speicher haben.
- Klicken Sie mit der rechten Maustaste auf die EXE-Datei, während das Programm läuft → Eigenschaften → aktivieren Sie das Kontrollkästchen "Als Administrator ausführen" (nicht erforderlich, kann aber die Priorität der Ressourcen erhöhen).
- Tipps und Tricks::
- Vermeiden Sie häufiges Umschalten nach dem erstmaligen Laden des Modells, behalten Sie das Modell im Speicher
- Verkürzen Sie die Ladezeit des 10%, indem Sie die Modelldateien auf einen USB3.0-Hochgeschwindigkeits-USB-Stick speichern.
- Komplexe Aufgaben, aufgeteilt in mehrere kurze Dialoge (nicht mehr als 200 Wörter für eine einzige Frage)
Die optimierte Generierungsgeschwindigkeit wurde auf einem i5-8250U/8GB-Einsteiger-Laptop auf eine Nutzbarkeit von 8 Token/Sek. bis 18-22 Token/Sek. getestet. Sollte dies immer noch nicht ausreichen, versuchen Sie es mit dem extremeren Q2_K-Quantisierungsmodell (mit reduzierter Genauigkeit, aber wiederum halbierter Größe).
Diese Antwort stammt aus dem ArtikelLocal LLM Notepad: Ein tragbares Werkzeug zur Offline-Ausführung lokaler großer SprachmodelleDie































