エッジ・コンピューティング・シナリオにおける性能のブレークスルー
Nunchakuの量子化エンジンは、FLUX.1-devのような複雑な拡散モデルを4GB RAM GPUで実行できるようにすることで、新境地を開拓しました。RTX 3060グラフィックカードでテストしたところ、テキストから画像への生成タスクの完了にかかった時間はわずか30秒で、グラフィックメモリのフットプリントは16GBから4.3GBに削減されました。この技術の利点は主に3つの分野から得られます:
- SVDQuantは、行列分解を使用して、主要な固有値を保持し、低ビット幅の損失を補正します。
- ダイナミックレンジ割り当てアルゴリズムが各レイヤーの定量化パラメータを最適化
- ハイブリッド精密スケジューリング機構は、計算効率と品質をバランスさせる
この機能は、教育機関での研究実験や個人開発者によるプロトタイピングなど、リソースに制約のあるシナリオに特に適しており、ノートPCのGPUで解像度768×768の画像生成タスクを安定して実行できることが測定されている。
この答えは記事から得たものである。ヌンチャク:FLUX.1とSANAの4ビット量子化モデルを効率的に実行する推論ツールについて































