O balanceamento de carga inteligente do AIRouter alcança a distribuição ideal de tarefas avaliando dinamicamente o desempenho e o custo do modelo. Seu mecanismo principal é o seguinte:
- Avaliação de indicadoresSintetize o tempo de resposta, o custo de invocação e o sucesso da tarefa para atualizar as prioridades do modelo em tempo real.
- padrão estratégicoTrês estratégias de seleção são suportadas:
– fast_firstPriorize os modelos de resposta mais rápida para cenários com altos requisitos de tempo real.
– custo_primeiroSeleção do modelo de menor custo, adequado para projetos sensíveis ao orçamento.
– equilibradoVelocidade e custo equilibrados, filtrados por um algoritmo Pareto-optimal. - método de implementaçãoO desenvolvedor pode ser contatado por meio do
generate
metodológicomode
para especificar uma política, ou use o parâmetrogenerate_fromTHEbest
Seleciona automaticamente em uma lista de modelos candidatos.
Por exemplo, chamarmode="cost_first"
Quando isso acontece, o sistema dá preferência a modelos de baixo custo, como o Anthropic ou o DeepInfra.
Essa resposta foi extraída do artigoAIRouter: uma ferramenta de roteamento inteligente para invocar vários modelos com uma interface de API unificadaO