Implementação de programas de tecnologia em nível de produção
As duas opções a seguir são recomendadas para implementações altamente disponíveis:
- Servidor vLLM::
- Instale a versão dedicada (
uv pip install --pre vllm==0.10.1+gptoss
) - Inicie o serviço de API (
vllm serve openai/gpt-oss-120b --tensor-parallel-size 4
) - Configurar o proxy reverso do Nginx e
pm2
monitoramento de processos
- Instale a versão dedicada (
- Programa Kubernetes::
- Criação de uma imagem do Docker (consulte o repositório)
Dockerfile.gpu
) - configurar
resources.limits.nvidia.com/gpu: 2
Declarar os requisitos da GPU - aprovar (um projeto de lei ou inspeção etc.)
HorizontalPodAutoscaler
Expansão e contração automática da capacidade
- Criação de uma imagem do Docker (consulte o repositório)
Os principais pontos de otimização incluem:
1. ativação--quantization=mxfp4
Redução do espaço de memória da GPU 50%
2. configurações--max-num-seqs=128
Aprimorar os recursos de processamento simultâneo
3. uso recomendado para monitoramentovLLM PrometheusExporter
Coleta de métricas de QPS e latência
Essa resposta foi extraída do artigoColeção de scripts e tutoriais para ajuste fino dos modelos OpenAI GPT OSSO