Guia de otimização de recursos de hardware
Uma solução para ambientes de baixa configuração:
- Estratégia de seleção de modelosMODEL_SIZE=medium: defina MODEL_SIZE=medium no arquivo .env para usar uma versão lite do modelo de idioma (40% menor que o modelo original)
- Configuração de loteAjuste BATCH_SIZE=2 no Docker-compose.yml para reduzir o pico de uso de memória
- Utilização do cache de discoPERSIST_CACHE=true: adicione o parâmetro PERSIST_CACHE=true após a primeira execução para evitar downloads duplicados do modelo
- Otimização de portasLimite do número de agentes simultâneos ao executar uma única tarefa MAX_AGENTS=3
Dados medidos: dispositivo com 4 GB de memória após a otimização, a velocidade de processamento de documentos pode atingir a configuração padrão de 65%. Recomenda-se fechar outros processos que ocupam a GPU e dar prioridade para garantir que o modelo incorporado esteja em execução.
Essa resposta foi extraída do artigoMAESTRO: assistente de pesquisa aprofundada com base de conhecimento local e colaboração multiagenteO