Leitfaden zur Optimierung der Hardware-Ressourcen
Eine Lösung für Umgebungen mit geringer Konfiguration:
- Strategie der ModellauswahlMODEL_SIZE=medium in der .env-Datei setzen, um eine Lite-Version des Sprachmodells zu verwenden (40% kleiner als das Originalmodell)
- Batch-KonfigurationBATCH_SIZE=2 in Docker-compose.yml anpassen, um die Spitzenspeichernutzung zu reduzieren
- Auslastung des Festplatten-CachePERSIST_CACHE=true Parameter nach dem ersten Lauf hinzufügen, um doppelte Modell-Downloads zu vermeiden
- Optimierung der HäfenMAX_AGENTS=3: Begrenzung der Anzahl der gleichzeitigen Agenten bei der Ausführung einer einzelnen Aufgabe
Gemessene Daten: 4-GB-Speichergerät nach der Optimierung, Dokumentenverarbeitungsgeschwindigkeit kann die Standardkonfiguration von 65% erreichen. Es wird empfohlen, andere Prozesse zu schließen, die den Grafikprozessor beanspruchen, und Priorität zu geben, um zu gewährleisten, dass das eingebettete Modell ausgeführt wird.
Diese Antwort stammt aus dem ArtikelMAESTRO: Vertiefter Forschungsassistent mit lokaler Wissensbasis und Multi-Agenten-KollaborationDie