海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

vLLMモデル・サービスのスループット性能を向上させるには？

2025-08-21

44

スループット最適化ソリューション

vLLMモデル・サービスのスループットを向上させるには、次のようにします：

プリセットプログラムの使用：高スループット最適化を有効にするには、-profile high_throughputパラメータを直接指定します。
パラレルのパラメーターを調整する：tensor-parallel-sizeでテンソルの並列度を上げる（マルチGPUのサポートが必要）。
定量的最適化：量子化パラメータ（-quantization awqなど）を追加して、ビデオメモリの使用量を削減する。
バッチ最適化：max-num-batched-tokensと-max-num-seqsパラメーターを調整する。

注意：スループットの増加はレイテンシを増加させる可能性があり、実際のアプリケーションシナリオに応じてバランスをとる必要があります。まずvllm-cli statusでGPU使用率を監視し、ビデオメモリボトルネックが見つかればFP8量子化（-quantization fp8）を有効にすることを検討することを推奨します。MoE アーキテクチャモデルの場合は、代わりに moe_optimised 設定を使用する必要があります。

この答えは記事から得たものである。vLLM CLI: vLLMで大規模言語モデルをデプロイするためのコマンドラインツールについて

関連記事

無断転載を禁じます：AI生産性ツール " vLLMモデル・サービスのスループット性能を向上させるには？

おすすめ

日本語