Szenariobasierte Anleitung zur Versionsauswahl
Je nach den Merkmalen der Anwendungsanforderungen können die Modelle der Jan-nano-Serie in 3 typische Konfigurationsschemata unterteilt werden:
- Eingebettete Szenarien(Intelligente Hardware/IoT):
Wählen Sie die Version GGUF-Q3_K_XL, die <3 GB groß ist und CPU-Inferenz unterstützt.
Geeignet für: latenzempfindliche Aufgaben wie Sprachinteraktion, Gerätesteuerung usw. - Corporate Office-Szene(örtlich begrenzter Einsatz):
Verwendet Base + Q4_K_M-Quantisierung, um 8 GB Videospeicherplatz mit der Bauqualität in Einklang zu bringen
Geeignet für: Schreiben von Dokumenten, Datenanalyse und andere routinemäßige NLP-Aufgaben - Szenarien der akademischen Forschung(Langtextverarbeitung):
Muss mit 128k-Version + YARN-Parameter konfiguriert werden
Geeignet für: Überprüfung von Dissertationen, Analyse von Rechtstexten und andere lange kontextbezogene Anforderungen
Auswahl Entscheidungsbaum:
1) Bestimmen Sie zunächst, ob Sie einen langen Kontext benötigen → wählen Sie 128k oder nicht
2) Bewertung der Hardware-Konfigurationen → Entscheidung über das Quantifizierungsniveau
3) Prüfen Sie die funktionalen Anforderungen → Bestätigen Sie den Bedarf an Werkzeugaufrufen
Die jüngste Praxis hat gezeigt, dass auf mit Tensor Core ausgestatteten NVIDIA-Grafikkarten die Aktivierung der--tensor-parallel-sizeParameter kann den Durchsatz weiter erhöhen.
Diese Antwort stammt aus dem ArtikelJan-nano: ein leichtes und effizientes Modell für die TexterstellungDie































