Strategie zur Kontrolle der API-Nutzung
Die folgenden Kontrollen werden für die 60-QPM-Grenze der kostenlosen Version der Gemini-API empfohlen:
- Programm Grundausstattung::
- Konfigurieren Sie wrangler.toml in Cloudflare Worker:
[Grenzen]
Anfragen = 1000/Tag - Hinzufügen des Antwort-Headers X-RateLimit-Limit
- Nutzung der D1-Datenbank zur Aufzeichnung von Nutzeranrufen
- Konfigurieren Sie wrangler.toml in Cloudflare Worker:
- Erweiterte Kontrollen::
- Integration der Quotas API von Google Cloud für die Echtzeitüberwachung der Nutzung
- Einrichten von automatischen Warnungen: Auslösen von Slack-Benachrichtigungen, wenn in 15 Minuten mehr als 500 Anrufe getätigt werden
- Konfiguration der automatischen Degradierung: Umschaltung auf das große Sprachmodell für den lokalen Betrieb nach Überschreitung der Grenzwerte
- Tipps zur Kundeneinschränkung::
- Hinzufügen eines Entprellungsschutzes am vorderen Ende (Mindestintervall 1,5 Sekunden)
- Implementierung einer Nutzungsaufforderungsleiste zur Anzeige der prozentualen Nutzung im aktuellen Monat
- Lange Unterhaltungen werden automatisch in mehrere API-Anfragen aufgeteilt, die in bestimmten Abständen gesendet werden.
KostenrechnungUnterstützung von ca. 300 vollständigen Gesprächen pro Tag in der Standardkonfiguration
Diese Antwort stammt aus dem ArtikelGemini Playground: Serverlose Bereitstellung einer multimodalen Gemini-DialogseiteDie































