モバイルでのオフライン展開のための完全なテクノロジーパス
完全オフラインのモバイル・アプリケーションを実現するには、次のような技術的ソリューションが必要である:
- モデル変換::
- 利用する
transformers.onnxONNX形式のエクスポート(追加が必要)opset_version=13(パラメータ) - TensorRTまたはMNNによる計算グラフのさらなる最適化
- 利用する
- アプリケーション統合::
- アンドロイド・プラットフォームではTFLite推論を推奨(32ビットから8ビットへのウェイト量化が必要)
- iOSプラットフォームで利用可能なCore MLデプロイメント(以下の追加に注意。
--quantize int8(オプション)
- パフォーマンス・バランシング::
- 世代の長さを制限する
max_length=50) リアルタイムの確保 - FAQペアを保存するキャッシュ機構を有効にする
- 世代の長さを制限する
テストによると、変換されたBonsaiモデルはiPhone 12上で180MBのストレージ容量しか消費せず、1回の推論にかかる時間は300ミリ秒未満であった。 クロスプラットフォームのアプリケーションを開発するには、React Nativeフレームワークと連携することを推奨する。
この答えは記事から得たものである。Bonsai: エッジデバイスでの操作に適した3値重み付き言語モデルについて































