ビデオメモリ不足への対策
ビデオメモリ不足の問題に対処するために、以下の戦略を採用することができる:
- low_memoryコンフィギュレーションを使用する:メモリ最適化スキームを -profile low_memory で有効にし、FP8 量子化などのメモリ節約テクニックを自動的に有効にする。
- モデルの定量化:量子化awq/squeezellmなどを手動で指定する。
- モデルのスライスを調整する:tensor-parallel-sizeパラメータの値を小さくする(シングルGPUの場合は1に設定)。
- アンインストール戦略:システム・メモリの拡張を利用するための-swap-spaceパラメータの設定
診断手順:ロードに失敗したら、直ちにvllm-cliが提供するログ・ビューアを使って特定のエラー・コードをチェックする。OOMエラーであれば、vllm-cli infoを使用して利用可能なビデオメモリをチェックし、モデル仕様を適切に縮小するか、より強力な定量化スキームを有効にするかを選択します。HuggingFace Hub上のモデルについては、適切なブランチを選択するように注意してください(例えば、4bit量子化バージョンを選択する)。
この答えは記事から得たものである。vLLM CLI: vLLMで大規模言語モデルをデプロイするためのコマンドラインツールについて