Para melhorar o desempenho do LLM local, é necessário otimizar a adaptação do hardware:
- Programa de aceleração de GPU: Uso
docker compose --profile local-gpu
Para iniciar o contêiner, certifique-se de que os drivers NVIDIA e o CUDA estejam instalados. - Recomendações de otimização da CPUSelecione a versão do modelo quantificado (por exemplo, formato GGUF) por
ollama_docker.sh
O script é carregado com a adição do--cpu
parâmetros - Otimização de armazenamentoRecomenda-se que os arquivos de modelo sejam armazenados em unidades SSD e usados ao puxar
./scripts/ollama_docker.sh pull <model>:latest-q4
Obtenha a versão lightweight
observe que emdocker-compose.ollama.yml
ajuste do estágio centralOLLAMA_NUM_PARALLEL
controla o número de solicitações simultâneas.
Essa resposta foi extraída do artigoSim: ferramentas de código aberto para criar e implantar rapidamente fluxos de trabalho de agentes de IAO