Estratégia de controle de uso da API
Os controles a seguir são recomendados para o limite de 60 QPM da versão gratuita da API do Gemini:
- Programa de configuração básica::
- Configure o wrangler.toml no Cloudflare Worker:
[limites]
solicitações = 1000/dia - Adição do cabeçalho de resposta X-RateLimit-Limit
- Uso do banco de dados D1 para registrar chamadas de usuários
- Configure o wrangler.toml no Cloudflare Worker:
- Controles avançados::
- Integração da API de cotas do Google Cloud para monitoramento em tempo real do uso
- Configuração de alertas automáticos: acionamento de notificações do Slack quando mais de 500 chamadas são feitas em 15 minutos
- Configuração da degradação automática: alternar para a operação local do modelo de idioma grande após ultrapassagens
- Dicas de restrição de clientes::
- Adicione o controle anti-vibração de debounce ao front-end (intervalo mínimo de 1,5 segundo)
- Implementar uma barra de prompt de uso para exibir a porcentagem de uso do mês atual
- As conversas longas são automaticamente divididas em várias solicitações de API enviadas em intervalos
custeioSuporte para aproximadamente 300 conversas completas por dia na configuração padrão
Essa resposta foi extraída do artigoGemini Playground: implantação sem servidor de um site de diálogo multimodal GeminiO































