vLLMバージョン0.10.1+との倉庫統合は、事前にビルドされたホイールパッケージを介してOpenAI互換のAPIサービスをサポートするプロダクショングレードのデプロイメントソリューションを提供します。H100GPU上で、vLLMは毎秒120トークンの推論を可能にし、これはネイティブのTransformersより3倍高速です。デプロイするにはvllm serve
コマンドは、RESTfulサービスを開始することができ、動的バッチ処理と連続バッチ(連続バッチ)および他の産業用グレードの機能をサポートし、高同期生産環境に適しています。
この答えは記事から得たものである。OpenAI GPT OSSモデルを微調整するためのスクリプトとチュートリアル集について