リソースに制約のある環境におけるチューニング戦略
以下の最適化された組み合わせは、メモリが16GB未満のデバイスに推奨されます:
- モデルの選択
- 優先バージョン8B(要修正)
inference.py正鵠を得る--model(パラメータ) - 8ビット量子化:インストール
bitsandbytesパッケージを追加し--load_in_8bitパラメトリック
- 優先バージョン8B(要修正)
- コンピューティング・アクセラレーション
- 強制フラッシュ・アテンション(インストール時に指定)
--no-build-isolation) - 推論バッチサイズの制限(設定)
--batch_size 1)
- 強制フラッシュ・アテンション(インストール時に指定)
- メモリ管理
- グラデーション・チェックポイントを有効にする:トレーニング・スクリプトに以下を追加する。
gradient_checkpointing=True - 混合精度でのトレーニング:プロファイル設定
fp16: true
- グラデーション・チェックポイントを有効にする:トレーニング・スクリプトに以下を追加する。
- 緊急プログラムOOMエラー発生時
- キャッシュの解放を試みる:
torch.cuda.empty_cache() - 画像の解像度を下げる(前処理コードのresizeパラメータを変更する)
- キャッシュの解放を試みる:
リアルタイムデータGTX 1060グラフィックカードは、基本的な推論作業をスムーズに実行できるように最適化されています。
この答えは記事から得たものである。MM-EUREKA:視覚的推論を探求するマルチモーダル強化学習ツールについて































