O serviço de inferência hospedado apresentado pela Hyperbolic foi projetado com uma arquitetura de microsserviço e oferece suporte à implantação de modelo como serviço (MaaS) das principais estruturas, como TensorFlow e PyTorch. Sua implementação técnica inclui três avanços importantes: um compilador de modelo adaptável que otimiza automaticamente representações intermediárias, como ONNX e TorchScript, reduzindo a latência de inferência do ResNet-50 para 8 ms; um sistema de lote dinâmico que mescla de forma inteligente solicitações simultâneas, aumentando a taxa de transferência em 6x e mantendo um SLA de 99,9%; e uma rede de cache de borda que passa por 23 pontos de acesso em todo o mundo Possibilitando uma resposta de ponta a ponta <50 ms.
O serviço abrange visão computacional, processamento de linguagem natural e outras áreas importantes, com mais de 180 modelos de código aberto, incluindo Stable Diffusion e Llama 2 pré-construídos. Os usuários só precisam carregar os pesos do modelo e os dados de entrada por meio da API REST, e o sistema concluirá automaticamente todo o gerenciamento do processo, desde o empacotamento em contêiner até o dimensionamento elástico. Os dados empíricos mostram que, em comparação com os clusters de inferência autoconstruídos, o serviço permite que as PMEs reduzam seu investimento em mão de obra de O&M em 85%, e a taxa de erro de inferência cai para 0,03%.
A plataforma desenvolveu especialmente um painel de previsão de custos que pode recomendar de forma inteligente o plano ideal de alocação de recursos com base no histórico de uso. Para cenários de tráfego intenso, o modo de instância pontual original pode economizar 71% de sobrecarga de computação, e essa tecnologia foi certificada por uma patente no campo de sistemas distribuídos.
Essa resposta foi extraída do artigoHyperbolic: fornecendo acesso acessível à GPU e serviços de inferência de IAO




























