Effizienter Leitfaden für den Einsatz von Android
Die Ausführung des parametrischen Modells 14B auf einem mobilen Gerät erfordert besondere Aufmerksamkeit für die folgenden Schlüsselpunkte:
- Versionsauswahl Priorität::
- Q4_K_M.gguf (beste Bilanz)
- IQ3_XS.gguf (Extreme Ausgabe)
- Vermeiden Sie die Verwendung der F16-Version
- Spezifischer Betriebsprozess::
- Laden Sie die angepasste GGUF-Modelldatei über HuggingFace herunter (<8GB empfohlen)
- Installieren Sie termux und konfigurieren Sie die Linux-Umgebung:
pkg install clang make cmake - Kompilieren Sie den Zweig llama.cpp, der Android anpasst:
git clone -b android https://github.com/ggerganov/llama.cpp - ausnutzen
--n-gpu-layers 20Abschnitt Parameter zur Aktivierung der GPU-Beschleunigung
- Tipps zur Leistungsoptimierung::
- aufstellen
--threads 4Entspricht der Anzahl der CPU-Kerne des Geräts - erhöhen.
--mlockVerhindern der Speicherauslagerung - ausnutzen
--prompt-cacheCache Common Cue Words
- aufstellen
- Offizielle APK-AlternativeWenn die manuelle Bereitstellung schwierig ist, kann eine vorgefertigte APK von HuggingFace heruntergeladen werden, aber beachten Sie, dass nur bestimmte Modellversionen unterstützt werden!
Diese Antwort stammt aus dem ArtikelTifa-Deepsex-14b-CoT: ein großes Modell, das sich auf Rollenspiele und die Erstellung ultralanger Fiktion spezialisiert hatDie































