Langroid bietet zwei zentrale Optimierungsmechanismen:
- Antwort-CacheLLM-Antworten über Redis oder Momento speichern, um wiederholte Abfragen nach demselben Inhalt zu vermeiden
- Werkzeug AufrufWenn der LLM eine Berechnung oder eine Abfrage durchführen muss, geschieht dies über die
ToolMessage
Lokale Funktionen auslösen, anstatt Token zu verbrauchen
Bei mathematischen Problemen zum Beispiel wird die Intelligenz lieber Python-Rechenprogramme aufrufen, als LLM die Berechnungen durchführen zu lassen. Kombination vonsingle_round
und andere Parameter der Aufgabensteuerung können unnötige API-Aufrufe wirksam reduzieren. Tests zeigen, dass diese Optimierungen die Betriebskosten des 30%-50% senken.
Diese Antwort stammt aus dem ArtikelLangroid: Einfaches Navigieren in großen Sprachmodellen mit Multi-Intelligent Body ProgrammingDie