O Langroid oferece dois mecanismos principais de otimização:
- Cache de respostasArmazenamento de respostas do LLM via Redis ou Momento para evitar consultas repetidas do mesmo conteúdo
- Chamada de ferramentaQuando o LLM precisa realizar um cálculo ou uma consulta, isso é feito por meio do
ToolMessage
Acionar funções locais em vez de consumir tokens
Ao lidar com problemas de matemática, por exemplo, a inteligência chamará preferencialmente as ferramentas computacionais do Python em vez de deixar que o LLM faça os cálculos. Combinado comsingle_round
e outros parâmetros de controle de tarefas podem reduzir efetivamente as chamadas de API desnecessárias. Os testes mostram que essas otimizações reduzem os custos operacionais do 30%-50%.
Essa resposta foi extraída do artigoLangroid: Navegando facilmente em grandes modelos de linguagem com programação corporal multiinteligenteO