A família de modelos GPT-OSS oferece soluções de implementação eficientes para diferentes cenários de aplicativos. O gpt-oss-120b é adequado para ambientes de data center ou de dispositivos de última geração, sendo executado em uma única GPU Nvidia H100, enquanto o gpt-oss-20b é otimizado para cenários de baixa latência e pode ser executado em dispositivos de consumo com apenas 16 GB de RAM. Os modelos suportam uma variedade de estruturas de tempo de execução, incluindo Transformers, vLLM, Ollama e LM Studio, para atender a diferentes ambientes de hardware e requisitos de uso.
É particularmente notável o uso da quantificação MXFP4 para essa família de modelos, o que reduz significativamente os requisitos de recursos de tempo de execução, permitindo que modelos grandes sejam executados com eficiência em dispositivos com recursos limitados. Para dispositivos Apple Silicon, os desenvolvedores também podem converter os pesos para o formato Metal para otimizar o desempenho do tempo de execução local. Essa estratégia de implantação flexível permite que o modelo GPT-OSS seja adaptado a uma ampla variedade de ambientes de hardware, desde servidores baseados em nuvem até laptops pessoais.
Essa resposta foi extraída do artigoGPT-OSS: Grande modelo de código aberto da OpenAI para raciocínio eficienteO