ローカルLLMの性能を向上させるには、ハードウェア適応の最適化を目標とする必要がある:
- GPUアクセラレーション・プログラム使用
docker compose --profile local-gpu
コンテナを起動するには、NVIDIAドライバとCUDAがインストールされていることを確認する。 - CPUの最適化に関する推奨事項定量化モデルのバージョン(例:GGUFフォーマット)を以下の方法で選択します。
ollama_docker.sh
スクリプトは--cpu
パラメトリック - ストレージの最適化モデルファイルはSSDドライブに保存し、引っ張るときに使用することをお勧めします。
./scripts/ollama_docker.sh pull <model>:latest-q4
軽量版を入手する
にある。docker-compose.ollama.yml
センターステージ調整OLLAMA_NUM_PARALLEL
パラメータは同時リクエスト数を制御する。
この答えは記事から得たものである。シム:AIエージェントワークフローの迅速な構築と展開のためのオープンソースツールについて