Programa de otimização da estabilidade
Ao gerar conteúdo de formato longo, interrupções ou tempos limite da rede podem causar a interrupção das respostas de streaming. O geminicli2api fornece os seguintes mecanismos de proteção:
Realização técnica
- Configuração de cliente::
- Defina um tempo limite de leitura de 15 a 30 segundos (
timeout=(30, 300)
) - Ativar o mecanismo de repetição automática (recomendado até 3 vezes)
- Defina um tempo limite de leitura de 15 a 30 segundos (
- Otimização no lado do servidor::
- fazer uso de
nginx
Configuração da geração reversa keepalive_timeout 300s - Configurações de implantação do Docker
--restart=unless-stopped
- fazer uso de
- Recuperação de pontos de controle::
- Registre a última ID de bloco recebida
- aprovar (um projeto de lei ou inspeção etc.)
last_event_id
Parâmetros para ativar transferências intermitentes
melhores práticas
Para artigos longos com mais de 10.000 palavras, ele é recomendado:
1. solicitações segmentadas (2000 tokens por segmento)
2) UsethinkingConfig
Uso de memória do controle de exibição
3. monitoramentoX-RateLimit-Remaining
Cabeças para evitar o esgotamento da cota
Essa resposta foi extraída do artigogeminicli2api: Ferramenta proxy para converter a CLI do Gemini em APIs compatíveis com OpenAIO