A napkins.dev escolheu a Together AI como provedora de serviços para o modelo Llama4 para criar um pipeline estável de geração de código de IA de nível de produção. A solução tecnológica oferece três benefícios principais:
- otimização do desempenhoCompressão quantificada de IA da Llama4 para manter a latência de inferência única dentro de 3 segundos (~8-15 segundos para serviços de nuvem normais)
- controle de custosA cota gratuita pode suportar cerca de 500 vezes/mês de geração de código, e o excesso é cobrado a $0.2/mil tokens.
- Elasticidade de escalaDimensionamento horizontal automático para suportar centenas de solicitações de geração simultâneas
Em termos de implementação, o sistema codifica a captura de tela carregada pelo usuário como uma cadeia de caracteres base64, emenda-a com o modelo de palavra-chave e a envia por meio da API para a Together AI. Uma solicitação típica contém cerca de 1.500 tokens de entrada e gera de 800 a 1.200 tokens de código, com o processo completo levando em média 22 segundos.
Essa resposta foi extraída do artigoNapkins.dev: upload de wireframes para gerar código de front-end com base no Llama4O































