Die folgenden Optimierungsverfahren werden für ressourcenbeschränkte Umgebungen empfohlen:
- Auswahl des Modells::
- Vorrangiger Einsatz von leichtgewichtigen Modellen mit 7B-Parametern (z. B. Llama-2-7B-Chat)
- .Quantitative BelastungModus (INT8-Quantisierung verringert den Platzbedarf des 40%-Videospeichers)
- funktionelle Schneiderei: Bei der Installation auswählenMinimaler EinsatzOptionen zur Deaktivierung von Nicht-Kernfunktionen wie der Dokumentenerstellung
- Zuweisung von Ressourcen::
- Begrenzung der Anzahl der gleichzeitigen Anfragen (Standardprofil)
config.yaml
Mittelbühnenverstellungmax_concurrency
) - Zuweisung verschiedener CPU-Kerne zu den Komplement- und Scan-Diensten (Isolierung über cgroup)
- Begrenzung der Anzahl der gleichzeitigen Anfragen (Standardprofil)
- Caching-Strategie: ÖffnenFertigstellungs-CacheDas Ergebnis wird durch die Wiederverwendung der Historie wiederholter Codemuster erzeugt.
Tests haben gezeigt, dass mit den oben genannten Optimierungen 5-8 Entwickler gleichzeitig auf einem Cloud-Host mit 8 GB RAM bedient werden können. Empfohlen für die Verwendung mitzurücksetzenStrategien (z. B. Neustart des Dienstes jeden Morgen), um die Ansammlung von Speicherlecks zu verhindern.
Diese Antwort stammt aus dem ArtikelMonkeyCode: Intelligente Programmier- und Code-Sicherheitsmanagement-Tools für UnternehmenDie