O repositório suporta a implementação rápida de modelos via vLLM e Ollama:
- Implementação do vLLM::
- Para instalar o vLLM: execute
uv pip install --pre vllm==0.10.1+gptoss --extra-index-url https://wheels.vllm.ai/gpt-oss/
. - Iniciar o servidor: execute
vllm serve openai/gpt-oss-20b
fornecendo serviços de API compatíveis com a OpenAI.
- Para instalar o vLLM: execute
- Implantação de Ollama::
- Modelo pull: run
ollama pull gpt-oss:20b
Faça o download do modelo. - Modelo de start-up: implementação
ollama run gpt-oss:20b
, executando modelos em hardware de nível de consumidor.
- Modelo pull: run
Essas duas abordagens são adequadas para cenários diferentes. O vLLM é adequado para a implantação da API no ambiente de produção, e o Ollama é adequado para testes e desenvolvimento local.
Essa resposta foi extraída do artigoColeção de scripts e tutoriais para ajuste fino dos modelos OpenAI GPT OSSO