Realização de valor do roteamento de modelos dinâmicos no nível do usuário final
A primeira função de troca de modelo em tempo de execução do Zola resolve as limitações técnicas de um único serviço de IA. Em termos de implementação técnica, o front-end gerencia o modelo atualmente selecionado por meio do estado React, e o back-end chama dinamicamente a API correspondente de acordo com a seleção. A configuração do modelo predefinido do sistema inclui mecanismos com diferentes níveis de parâmetros, como GPT-3.5 e Mistral-7B, que podem ser selecionados livremente pelos usuários de acordo com as dimensões de velocidade de resposta e capacidade de criatividade.
Os dados de uso no mundo real mostram que o modelo da OpenAI é 221 TP3T mais preciso do que o Mistral em tarefas complexas de raciocínio lógico, enquanto o último tem uma redução de latência de 401 TP3T em cenários de implantação localizada. Essa flexibilidade permite que os consultores jurídicos escolham o rigoroso GPT-4 para lidar com termos contratuais, enquanto os profissionais criativos optam por fazer um brainstorming com um modelo mais aberto em termos de parâmetros.
A arquitetura subjacente usa um padrão de política para implementar a fábrica de modelos, e novos serviços de acesso podem aparecer automaticamente nas opções do cliente simplesmente registrando-se para o roteamento de API. O recurso de painel de desempenho do modelo em desenvolvimento ajudará o usuário a tomar decisões por meio de índices de satisfação de conversas históricas, o que fortalecerá ainda mais a competitividade central da experiência de IA personalizada.
Essa resposta foi extraída do artigoZola: aplicativo da Web de bate-papo de IA de código aberto com upload de documentos e suporte a vários modelosO





























