海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

vLLMモデル・サービスのスループット性能を向上させるには?

2025-08-21 44

スループット最適化ソリューション

vLLMモデル・サービスのスループットを向上させるには、次のようにします:

  • プリセットプログラムの使用:高スループット最適化を有効にするには、-profile high_throughputパラメータを直接指定します。
  • パラレルのパラメーターを調整する:tensor-parallel-sizeでテンソルの並列度を上げる(マルチGPUのサポートが必要)。
  • 定量的最適化:量子化パラメータ(-quantization awqなど)を追加して、ビデオメモリの使用量を削減する。
  • バッチ最適化:max-num-batched-tokensと-max-num-seqsパラメーターを調整する。

注意:スループットの増加はレイテンシを増加させる可能性があり、実際のアプリ ケーションシナリオに応じてバランスをとる必要があります。まずvllm-cli statusでGPU使用率を監視し、ビデオメモリボトルネックが見つかればFP8量子化(-quantization fp8)を有効にすることを検討することを推奨します。MoE アーキテクチャモデルの場合は、代わりに moe_optimised 設定を使用する必要があります。

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る

ja日本語