通过 vLLM 部署 Step3 API 服务的主要步骤如下:
- 启动 API 服务端:执行命令
python -m vllm.entrypoints.api_server --model stepfun-ai/step3 --port 8000
,服务将运行在本地 8000 端口 - 发送 API 请求:通过 HTTP POST 向
http://localhost:8000/v1/completions
发送 JSON 格式请求,需包含 model、prompt 和 max_tokens 等参数 - 处理响应:API 返回 JSON 格式的生成结果,可直接解析使用
示例请求可包含多模态内容,如同时提交图片 URL 和文本提示。vLLM 的高效推理能力特别适合生产环境中的实时应用场景,能有效处理高并发请求。
本答案来源于文章《Step3:高效生成多模态内容的开源大模型》