Step3 APIサービスをvLLM経由でデプロイする主な手順は以下の通り:
- APIサーバーの起動:コマンドを実行する。
python -m vllm.entrypoints.api_server --model stepfun-ai/step3 --port 8000
サービスはローカルのポート8000で実行される。 - APIリクエストの送信:HTTP POST経由でAPIリクエストを
http://localhost:8000/v1/completions
model、prompt、max_tokensなどのパラメータを持つJSON形式のリクエストを送信します。 - 処理レスポンス:APIは生成された結果をJSON形式で返す。
vLLMの効率的な推論機能は、本番環境のリアルタイム・アプリケーション・シナリオに特に適しており、高度な同時リクエストを効率的に処理することができる。
この答えは記事から得たものである。Step3: マルチモーダルコンテンツのためのオープンソースマクロモデルの効率的な生成について