スループット最適化ソリューション
vLLMモデル・サービスのスループットを向上させるには、次のようにします:
- プリセットプログラムの使用:高スループット最適化を有効にするには、-profile high_throughputパラメータを直接指定します。
- パラレルのパラメーターを調整する:tensor-parallel-sizeでテンソルの並列度を上げる(マルチGPUのサポートが必要)。
- 定量的最適化:量子化パラメータ(-quantization awqなど)を追加して、ビデオメモリの使用量を削減する。
- バッチ最適化:max-num-batched-tokensと-max-num-seqsパラメーターを調整する。
注意:スループットの増加はレイテンシを増加させる可能性があり、実際のアプリ ケーションシナリオに応じてバランスをとる必要があります。まずvllm-cli statusでGPU使用率を監視し、ビデオメモリボトルネックが見つかればFP8量子化(-quantization fp8)を有効にすることを検討することを推奨します。MoE アーキテクチャモデルの場合は、代わりに moe_optimised 設定を使用する必要があります。
この答えは記事から得たものである。vLLM CLI: vLLMで大規模言語モデルをデプロイするためのコマンドラインツールについて