Como um modelo grande com 117B parâmetros, o gpt-oss-120b requer uma GPU de alto desempenho com 80GB de memória de vídeo, como a NVIDIA H100, para ser executado com eficiência. Para aprimorar a utilização do hardware, o armazém oferece suporte especial de quantização MXFP4 e guia de instalação do kernel Triton, o que pode aumentar a eficiência da computação em mais de 30%. Em contrapartida, o gpt-oss-20b de 21B parâmetros pode ser executado em hardware de nível de consumidor com apenas 16GB de RAM, o que é adequado para desenvolvedores individuais ou cenários de computação de borda. Ambos os modelos têm recursos de configuração automática de mapeamento de dispositivos correspondentes no repositório.
Essa resposta foi extraída do artigoColeção de scripts e tutoriais para ajuste fino dos modelos OpenAI GPT OSSO