vllm-cliには4つの最適化されたコンフィギュレーション・シナリオが内蔵されており、異なる使用シナリオ向けに特別に調整されている:
- 標準vLLMが推奨するインテリジェントなパラメータを使用したデフォルト設定。
- 萌え_最適化専門家の選択とルーティングに関するパラメータを調整し、混合専門家(MoE)モデルに最適化。
- 高スループットリクエストのスループットを最大化する構成で、高頻度のモデル呼び出しが必要なシナリオに適しています。
- ローメモリGPUメモリに制限のあるハードウェア環境向けに、FP8量子化などの技術を自動的に有効にし、メモリを最適化したコンフィギュレーションを提供します。
これらの事前定義されたプログラムは、以下の方法でアクセスできます。--profile
パラメーターのクイックコール実用的な開発では、最初にstandard
コンフィギュレーションを選択し、他の最適化オプションを選択するか、特定のニーズに応じてカスタムパラメータを調整する。
この答えは記事から得たものである。vLLM CLI: vLLMで大規模言語モデルをデプロイするためのコマンドラインツールについて