Para melhorar o desempenho do LLM local, é necessário otimizar a adaptação do hardware:
- Programa de aceleração de GPU: Uso
docker compose --profile local-gpuPara iniciar o contêiner, certifique-se de que os drivers NVIDIA e o CUDA estejam instalados. - Recomendações de otimização da CPUSelecione a versão do modelo quantificado (por exemplo, formato GGUF) por
ollama_docker.shO script é carregado com a adição do--cpuparâmetros - Otimização de armazenamentoRecomenda-se que os arquivos de modelo sejam armazenados em unidades SSD e usados ao puxar
./scripts/ollama_docker.sh pull <model>:latest-q4Obtenha a versão lightweight
observe que emdocker-compose.ollama.ymlajuste do estágio centralOLLAMA_NUM_PARALLELcontrola o número de solicitações simultâneas.
Essa resposta foi extraída do artigoSim: ferramentas de código aberto para criar e implantar rapidamente fluxos de trabalho de agentes de IAO
































