仓库支持通过vLLM和Ollama快速部署模型:
- vLLM部署:
- 安装vLLM:运行
uv pip install --pre vllm==0.10.1+gptoss --extra-index-url https://wheels.vllm.ai/gpt-oss/
。 - 启动服务器:执行
vllm serve openai/gpt-oss-20b
,提供OpenAI兼容的API服务。
- 安装vLLM:运行
- Ollama部署:
- 拉取模型:运行
ollama pull gpt-oss:20b
下载模型。 - 启动模型:执行
ollama run gpt-oss:20b
,在消费级硬件上运行模型。
- 拉取模型:运行
这两种方式适合不同场景,vLLM适合生产环境API部署,Ollama适合本地测试和开发。
本答案来源于文章《微调OpenAI GPT OSS模型的脚本和教程集合》