A integração do Warehouse com o vLLM versão 0.10.1+ fornece uma solução de implantação de nível de produção que oferece suporte a serviços de API compatíveis com OpenAI por meio de pacotes de roda pré-criados. Nas H100GPUs, o vLLM permite a inferência a 120 tokens por segundo, o que é três vezes mais rápido do que os Transformers nativos. Para implantar, basta executarvllm serve
Comando para iniciar serviços RESTful, suporte para processamento dinâmico de lotes e lotes contínuos (lotes contínuos) e outros recursos de nível industrial, adequados para ambientes de produção de alta moeda.
Essa resposta foi extraída do artigoColeção de scripts e tutoriais para ajuste fino dos modelos OpenAI GPT OSSO