One Balance implementiert ein granulares Verwaltungssystem zur Begrenzung des Datenflusses auf Modellebene, was ein wesentlicher Vorteil ist, der es von herkömmlichen API-Verwaltungstools unterscheidet. Wenn festgestellt wird, dass ein bestimmtes Modell (z. B. Google Gemini Pro) sein Kontingent erreicht hat, markiert das System das Modell automatisch als "cool" und wechselt zu anderen verfügbaren Modellen oder Schlüsseln, um den Dienst fortzusetzen.
Das System verwendet eine zweistufige Quotenüberwachung:
- Quoten für jede Minute: Überwachung der Häufigkeit von API-Aufrufen über einen kurzen Zeitraum
- Tageskontingente: Verfolgung der Gesamtnutzung über einen 24-Stunden-Zyklus
Auf der Grundlage des Mechanismus der Zustandsspeicherung in der D1-Datenbank kann One Balance die Nutzung der einzelnen Schlüssel genau aufzeichnen. Wenn die Kontingentgrenze ausgelöst wird, berechnet das System automatisch eine angemessene Abkühlungszeit (z. B. 24 Stunden nach Ausschöpfung des Tageskontingents), in der keinerlei manuelles Eingreifen erforderlich ist.
Diese Antwort stammt aus dem ArtikelOne Balance: ein Lastausgleichstool für die intelligente Verwaltung von AI-API-Schlüsseln über Cloudflare AI GatewayDie