Der komplette Technologiepfad für die Offline-Bereitstellung auf dem Handy
Um eine vollständig offlinefähige mobile Anwendung zu erreichen, ist die folgende technische Lösung erforderlich:
- Modellumwandlung::
- ausnutzen
transformers.onnxONNX-Format exportieren (muss hinzugefügt werden)opset_version=13(Parameter) - Weitere Optimierung von Berechnungsgraphen mittels TensorRT oder MNN
- ausnutzen
- Anwendungsintegration::
- TFLite-Inferenz wird für die Android-Plattform empfohlen (32-Bit-zu-8-Bit-Gewichtsquantisierung muss durchgeführt werden)
- Core ML-Bereitstellungen für iOS-Plattformen verfügbar (beachten Sie die Hinzufügung des
--quantize int8(Optionen)
- Leistungsbilanzierung::
- Begrenzen Sie die Länge der Generation (
max_length=50) Sicherstellung von Echtzeit - Caching-Mechanismus zum Speichern von FAQ-Paaren aktivieren
- Begrenzen Sie die Länge der Generation (
Tests zeigen, dass das konvertierte Bonsai-Modell auf dem iPhone 12 nur 180 MB Speicherplatz benötigt und eine einzige Inferenz <300 ms dauert. Es wird empfohlen, plattformübergreifende Anwendungen mit dem React Native Framework zu entwickeln.
Diese Antwort stammt aus dem ArtikelBonsai: Ein dreiwertiges gewichtetes Sprachmodell, das für den Einsatz auf Randgeräten geeignet istDie































