低資源環境最適化ガイド
ビデオメモリが十分でないGPUデバイス(たとえば24GB以下)の場合、以下の方式を使用することができます:
- ナレッジスライシング技術使用
split_knowledge.py
大規模な知識ベースをトピックごとにチャンキングし、実行時に動的にロードする。 - 8ビット量子化追加
--quantize
パラメタリゼーションintegrate.py
モデル体積は50%減少。 - CPUオフロード戦略構成
offload_knowledge=True
非アクティブな知識ベクトルをメモリに保存 - バッチ最適化調整
--batch_size 4
ビデオメモリのオーバーフローを避ける
Llama-3-8BをRTX3090(24GB)で実行した場合:1)100万個の知識をスライスして処理することで、ビデオメモリ使用量を18GB以内に抑えることができる。80%です。
この答えは記事から得たものである。KBLaM:大規模モデルに外部知識を埋め込むためのオープンソース拡張ツールについて